Spraaktechnologie in de auto is een veilige investering
Spraaksynthese stelt een computer in staat om tekst om te zetten in spraak. Philippe Jeanrenaud, directeur Speech Mobility Marketing bij Nuance, noemt de voordelen: “Er kunnen aanzienlijk meer en veel gedetailleerdere instructies uitgesproken worden: elke denkbare combinatie van straatnamen, namen van steden, signalisatieborden en Points of Interest.” In de regel begeleidt de reguliere navigatiestem de chauffeur met tekst van het type ‘na vijftig meter linksaf’. Spraaksynthese maakt mogelijk dat de PND in plaats daarvan instructies uitspreekt van het type: ‘Neem na honderd meter de afrit voor Breukelen’ of ‘sla rechtsaf over vijftig meter bij de kruising met de Ferdinand Bolstraat’. Dergelijke instructies zijn duidelijker dan de traditionele, generieke adviezen. Volgens Walt Tetschner, directeur van ASRNews, is dat de toegevoegde waarde: “In mijn visie gaat het daar om: spraak in de navigator draait helemaal om veiligheid. Je moet je ogen op de weg houden in plaats van naar dat kreng te staren. Dat verklaart ook waarom de meeste navigators nu met spraak worden uitgerust.” Maar er is nog een reden waarom spraaksynthese gebruikt wordt. De uitgebreide instructies kunnen niet door professionele stemmen ingesproken worden, omdat het aantal combinaties te groot is. Nog los van het feit dat de kosten daarvoor niet op te brengen zijn, zou dat de computerchip van de PND te zwaar belasten. Overigens was tot voor kort ook spraaksynthese geen oplossing voor uitgebreide audiofeedback. Maar inmiddels is de ‘footprint’ van de software voldoende klein geworden, terwijl de hardware dermate robuust is dat het futuristische trucje van de computerstem op een modale PND past.
Die PND zal overigens steeds vaker een smartphone zijn. Het Amerikaanse onderzoeksbureau Strategy Analytics voorziet dat 20 miljoen van de verwachte 70 miljoen navigatieoplossingen die in 2010 verkocht zullen worden smartphones zijn. Die voorspelling dateert uit 2006. Door de overname vorig jaar van kaartenmaker Navteq door Nokia moet die mogelijk bijgesteld worden. Te verwachten is dat de smartphone ook zal worden uitgerust met spraak, zoals inmiddels het geval is met een aantal van de standalone PND’s van marktleider TomTom. Van een volledige ‘Voice User Interface’ is evenwel nog geen sprake. De chauffeur moet met de vinger een aantal menu’s aantikken op het touchscreen om de opties ‘Gesproken adres’ en ‘Gesproken adres (dialoog)’ te bereiken. Zelfs dan is niet alles door middel van de stem te bedienen. De bediening evenwel is intuïtief.
Nuance is de leverancier van een oplossing die autofabrikant Mercedes in 2007 invoerde op het dashboard van de C-klasse. Deze toepassing is uitgebreider dan wat de TomTom Go-reeks te bieden heeft. De chauffeur kan niet alleen het navigatiesysteem bedienen met de stem. Het systeem laat ook stembediening toe van radio en mobiele telefoon. Daarmee behoort ook het laten voorlezen van sms-jes in de auto tot de mogelijkheden. Gebruikers kennen dergelijke functionaliteit al van de BlackBerry-smartphone van het Canadese RIM die met software van Voice Signal Technologies is uitgerust. Voice Signal Technologies werd vorig jaar overgenomen door Nuance. Mercedes is wel state-of-the-art, maar geen uitzondering. Volgens Telematics Reaserch Group werden vorig jaar 20 miljoen nieuwe auto’s met spraak uitgerust. Ford heeft 20 modellen op de markt, naast merken zoals Citroën, Renault en Fiat.
Volgens Philippe Jeanrenaud is het slechts dankzij recente technologische ontwikkelingen dat spraakherkenning voor autonavigatiesystemen op dit moment mogelijk is. De opgave is niet gering: de apparatuur moet in staat worden geacht om gigantische bestemmingenlijsten met honderdduizenden verschillende invoermogelijkheden met grote nauwkeurigheid te herkennen. Jeanrenaud: “Die capaciteit is een absolute vereiste, aangezien het aantal straatnamen in de meeste grote Europese steden aanzienlijk kan oplopen. Londen kent 40.000 straatnamen. Duitsland en Frankrijk tellen 70.000 steden. Texas heeft meer dan 150.000 straten. De VoCon 3200 engine van Nuance kan dat nu aan.”
De technologische uitdagingen waarmee de spraakontwerpers te maken hadden, zijn hiermee niet eens volledig genoemd. De toepassing moet ook sprekeronafhankelijk werken. Zowel de stemmen van oude als van jonge mensen, van mannen en vrouwen en van verschillende dialectsprekers moeten vlekkeloos herkend worden. Dat lukt niet vanzelf. Jeanrenaud wijst erop dat de systemen daarom standaard uitgerust worden met een ‘fall-back’-modaliteit. De gebruiker moet een bestemming ook met de stem kunnen spellen of via een touchscreen kunnen invoeren. Dat het Nuance menens is met spraaktechnologie in de auto en op de smartphone, mag blijken uit het feit dat dit bedrijf vorig jaar naast Voice Signal Technologies ook Mobile Voice Control, BeVocal en ART overnam, alsook tot slot T9 van Tegic Communications. T9 is taaltechnologie die de tekstinvoer van de gebruiker raadt en zelf aanvult, bijvoorbeeld bij het intikken van een sms’je. Meer dan 3 miljard mobiele telefoons werden in de loop der jaren uitgerust met T9.