Overslaan en naar de inhoud gaan

Eindelijk automatische spraakherkenning

Nuance, wereldmarktleider op het gebied van spraak- en taaltechnologie, heeft de jongste, versie van zijn spraakherkenningprogramma Dragon NaturallySpeaking, zodanig weten te verbeteren dat de zogenaamde ‘leerfase’ volledig geëlimineerd kan worden. Het volstaat nu om alleen de software te installeren. Daarna kan de gebruiker onmiddellijk aan de slag met de meegeleverde headset om zijn dictaten met de stem uit te schrijven.
Carriere
Shutterstock
Shutterstock

Samen met de eliminatie van de oefentijd blijkt de accuratesse van de software alweer verbeterd, waardoor vanaf het allereerste gebruik een alleszins acceptabele herkenningsgraad haalbaar is.
Nuance, tot voor kort overigens beter bekend als ScanSoft, meent hiermee één van de allerlaatste obstakels weggenomen te hebben om het gebruik van spraakherkenning voor een groot publiek acceptabel te maken. Paul Ricci, CEO van Nuance, spreekt de verwachting uit dat ‘nieuwe generaties gebruikers hun voordeel zullen doen met spraakherkenning’.

Optimisme
Of dit daadwerkelijk het geval zal zijn, valt nog te bezien. In 1998 konden Nederlandstalige gebruikers over vier concurrerende spraakpakketten beschikken. Ook toen speelde onder producenten de hooggestemde verwachting dat de pc-consument massaal overstag zou gaan voor een spraakherkenningsprogramma. Dat optimisme was gebaseerd op een combinatie van factoren, waaronder de toen sterk verbeterde rekenkracht van de eerste generatie Pentium-processoren en het feit dat de voornaamste tenoren van toen, te weten: Philips, Dragon Systems en Lernout & Hauspie (L&H), voor het eerst in de geschiedenis spraakherkenning konden aanbieden die ‘continue’ spraak herkende. Alleen de Talkkey van het kleine MDT uit Oisterwijk werkte toen nog als enige programma met ‘discrete’ herkenning: dat wil zeggen dat de gebruiker verplicht was om tussen elk uit te spreken woord een korte pauze in te lassen. Waarnemers nemen evenwel aan dat van de euforische gebruikers die toen voor de continue spraak overstag gingen ruim negentig procent deze spraakherkenning de rug toekeerde. De voornaamste reden was dat het voordeel van continue spraakherkenning niet opwoog tegen het zeer frustrerende nadeel van de uitgesproken zwakke herkenningsgraad. In de spraaksector heeft zich sinds 1998 echter een grondige herschikking van de markt voorgedaan zodat van de genoemde vier producenten er thans niet één overblijft. De merknaam Dragon bestaat weliswaar nog, maar het bedrijf zelf is eerst opgeslorpt door L&H en daarna overgenomen door ScanSoft.
Voor westerse talen is de eliminatie van de leerfase die Nuance nu aanbiedt absoluut een primeur. Maar voor niet-westerse talen bracht het Japanse Toshiba al in 2001 een Japanse spraakherkenning op de markt die zonder leerfase te gebruiken was. Die voorsprong was echter niet gebaseerd op betere taalalgoritmes van de Japanners, maar op een aantal taalspecifieke kenmerken van het Japans die westerse talen nu eenmaal ontberen.

Sprekerafhankelijkheid
Volgens Nuance is met DNS een herkenningsgraad van 99 procent mogelijk, een verbetering op de foutmarge van de vorige versie met 20 procent. Van groot belang voor de accuratesse is de grootte van het meegeleverde vocabulaire. Die is opnieuw uitgebreid met vijftigduizend woorden. Versie 9 van DNS beschikt nu over een basiswoordenschat van 350.000 woorden, waaronder een groot aantal eigennamen, een vertienvoudiging in vergelijking met acht jaar geleden. De Dikke Van Dale, waarin geen eigennamen opgenomen worden, beschikt over een woordenschat van circa 270.000 woorden. Toch valt aan de spraakherkenning die Nuance biedt alsnog het nodige te verbeteren. Ondanks het feit dat de eindgebruiker eindelijk verlost is van zijn leerfase is de spraakherkenning nog steeds niet ‘sprekeronafhankelijk’. Van elke afzonderlijke gebruiker wordt namelijk een stemprofiel aangemaakt. Dat heeft als voordeel dat de accuratesse na het eerste gebruik voortdurend blijft toenemen. De software leert steeds beter ‘luisteren’ naar de stemtypische kenmerken van zijn gebruiker. Nuance levert overigens ook sprekeronafhankelijke spraakherkenning. Deze embedded software wordt vooral geleverd aan producenten van mobiele telefonie. Voor deze software ligt volgens waarnemers een grootse toekomst in het verschiet. Mobiele telefoontjes, met name Smartphones, worden steeds moeilijker te bedienen met de hand en dan biedt het gesproken woord een bijzonder handige interface.

Lees dit PRO artikel gratis

Maak een gratis account aan en geniet van alle voordelen:

  • Toegang tot 3 PRO artikelen per maand
  • Inclusief CTO interviews, podcasts, digitale specials en whitepapers
  • Blijf up-to-date over de laatste ontwikkelingen in en rond tech

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in