Eindelijk automatische spraakherkenning
Samen met de eliminatie van de oefentijd blijkt de accuratesse van de software alweer verbeterd, waardoor vanaf het allereerste gebruik een alleszins acceptabele herkenningsgraad haalbaar is.
Nuance, tot voor kort overigens beter bekend als ScanSoft, meent hiermee één van de allerlaatste obstakels weggenomen te hebben om het gebruik van spraakherkenning voor een groot publiek acceptabel te maken. Paul Ricci, CEO van Nuance, spreekt de verwachting uit dat ‘nieuwe generaties gebruikers hun voordeel zullen doen met spraakherkenning’.
Optimisme
Of dit daadwerkelijk het geval zal zijn, valt nog te bezien. In 1998 konden Nederlandstalige gebruikers over vier concurrerende spraakpakketten beschikken. Ook toen speelde onder producenten de hooggestemde verwachting dat de pc-consument massaal overstag zou gaan voor een spraakherkenningsprogramma. Dat optimisme was gebaseerd op een combinatie van factoren, waaronder de toen sterk verbeterde rekenkracht van de eerste generatie Pentium-processoren en het feit dat de voornaamste tenoren van toen, te weten: Philips, Dragon Systems en Lernout & Hauspie (L&H), voor het eerst in de geschiedenis spraakherkenning konden aanbieden die ‘continue’ spraak herkende. Alleen de Talkkey van het kleine MDT uit Oisterwijk werkte toen nog als enige programma met ‘discrete’ herkenning: dat wil zeggen dat de gebruiker verplicht was om tussen elk uit te spreken woord een korte pauze in te lassen. Waarnemers nemen evenwel aan dat van de euforische gebruikers die toen voor de continue spraak overstag gingen ruim negentig procent deze spraakherkenning de rug toekeerde. De voornaamste reden was dat het voordeel van continue spraakherkenning niet opwoog tegen het zeer frustrerende nadeel van de uitgesproken zwakke herkenningsgraad. In de spraaksector heeft zich sinds 1998 echter een grondige herschikking van de markt voorgedaan zodat van de genoemde vier producenten er thans niet één overblijft. De merknaam Dragon bestaat weliswaar nog, maar het bedrijf zelf is eerst opgeslorpt door L&H en daarna overgenomen door ScanSoft.
Voor westerse talen is de eliminatie van de leerfase die Nuance nu aanbiedt absoluut een primeur. Maar voor niet-westerse talen bracht het Japanse Toshiba al in 2001 een Japanse spraakherkenning op de markt die zonder leerfase te gebruiken was. Die voorsprong was echter niet gebaseerd op betere taalalgoritmes van de Japanners, maar op een aantal taalspecifieke kenmerken van het Japans die westerse talen nu eenmaal ontberen.
Sprekerafhankelijkheid
Volgens Nuance is met DNS een herkenningsgraad van 99 procent mogelijk, een verbetering op de foutmarge van de vorige versie met 20 procent. Van groot belang voor de accuratesse is de grootte van het meegeleverde vocabulaire. Die is opnieuw uitgebreid met vijftigduizend woorden. Versie 9 van DNS beschikt nu over een basiswoordenschat van 350.000 woorden, waaronder een groot aantal eigennamen, een vertienvoudiging in vergelijking met acht jaar geleden. De Dikke Van Dale, waarin geen eigennamen opgenomen worden, beschikt over een woordenschat van circa 270.000 woorden. Toch valt aan de spraakherkenning die Nuance biedt alsnog het nodige te verbeteren. Ondanks het feit dat de eindgebruiker eindelijk verlost is van zijn leerfase is de spraakherkenning nog steeds niet ‘sprekeronafhankelijk’. Van elke afzonderlijke gebruiker wordt namelijk een stemprofiel aangemaakt. Dat heeft als voordeel dat de accuratesse na het eerste gebruik voortdurend blijft toenemen. De software leert steeds beter ‘luisteren’ naar de stemtypische kenmerken van zijn gebruiker. Nuance levert overigens ook sprekeronafhankelijke spraakherkenning. Deze embedded software wordt vooral geleverd aan producenten van mobiele telefonie. Voor deze software ligt volgens waarnemers een grootse toekomst in het verschiet. Mobiele telefoontjes, met name Smartphones, worden steeds moeilijker te bedienen met de hand en dan biedt het gesproken woord een bijzonder handige interface.