Google weet spraakherkenning flink te verbeteren
De RNN's zijn beter in het onthouden van informatie, door dat niet alleen letterklanken worden geregistreerd maar ook de context van de klank. De Google-onderzoekers leggen het uit voor het Engels: In het woord 'museum', wordt de klank van de eerste 'u' beïnvloed door door de 'm' die er voor wordt uitgesproken en in het Engels een 'j' meekrijgt. De RNN houdt rekening met dergelijke verbuigingen waardoor de app een beter verstaander wordt. Daarbij is ook ruis meegenomen in het trainen van het model.
Vertraging komt niet goed uit
Deze aanpassingen vergen meer rekenwerk, maar Google heeft daar een oplossing voor gevonden door gebruik te maken van grotere audioblokken die in een keer worden verwerkt. De RNN bleek uit zichzelf er achter te zijn gekomen dat de beste resultaten te krijgen zijn door iets meer tijd te nemen voor de interpretatie van de klanken (foneem). Daarbij zou echter een extra vertraging optreden van 300 milliseconde. Het Google-team heeft het model daarop zo getraind dat de interpretatie plaats kan vinden vlak op het uitspreken van de zoektermen.
De nieuwe spraakherkenning is inmiddels geïmplementeerd in de Google App voor Android en iOS.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee