Helft gebruikers klaagt dat spraaktechnologie stemmen niet verstaat
Het onderzoek is uitgevoerd door Speechmatics, een bedrijf dat zelf spraaktechnologie levert en dus baat heeft bij een gunstig beeld. Toch spreekt uit het onderzoek niet dat de gebruikers ervan onverdeeld enthousiast zijn. Er valt nog heel wat te verbeteren, onder meer aan het herkennen van accenten (30,4%), dialecten (21,2%), etniciteit (14,1%), locatie (11,1%), leeftijd (7,1%), gender (5,1%) en achtergrondgeluiden (4,0%).
In het onderzoeksrapport gaat Speechmatics uitgebreid in op het begrip bias. Dat is voor velerlei uitleg vatbaar, stelt het bedrijf. Heel algemeen gesteld gaat het om een disproportioneel gewicht dat wordt toegekend ten faveure of ten nadele van een idee of een ding waarbij doorgaans sprake is van kortzichtigheid, vooroordelen of ongelijke behandeling. Een bias ontstaat door dat deze is aangeboren of aangeleerd en zorgt voor het ontwikkelen van sterke gevoelens voor of tegen een individu, een groep of een overtuiging.
Maar in de wetenschap en techniek ontstaat bias vooral door het gebruik van een onvolledige, slechte of verouderde set trainingsdata, dan wel een fouten in een algoritme. Het zijn allemaal oplosbare problemen volgens Speechmatics, maar dan moet wel iedereen meewerken om de disbalansen weg te werken.
Gebruik neemt desondanks toe
Het goede nieuws is, stellen de auteurs van het rapport, dat toch 55,6% van de ondervraagden vindt dat het eigenlijk best goed gaat met de spraakherkenning. Verder heeft inmiddels ongeveer de helft van de bedrijven een vorm van spraakherkenning in de bedrijfsprocessen in gebruik, onder meer als gevolg van de maatregelen om de corona-epidemie in te dammen, waardoor veel meer werk met een sterk gedecentraliseerd bedrijf moest gebeuren.
Maar uit welke achtergrond je komt, maakt veel uit voor het enthousiasme voor spraaktechnologie. Zo vonden de deelnemers aan het onderzoek dat Engels het best uit de verf kwam (86,6%) met een enorm gat gevolgd door Frans (4,4%), en Arabisch (3%). Ook staan er in het rapport quotes van deelnemers zoals deze: "Ik vond spraakherkenning redelijk goed wanneer ik sprak met doktoren en professoren die hele zinnen uitspreken. Het werken met spraakherkenning bij consumenten is veel lastiger."
Self-supervised learning als uitweg
Een van de oplossingen die in het rapport worden genoemd is te zorgen dat er een alertheid is op het voorkomen van verschillende vormen van bias vanaf het begin van een project waarin spraakherkenning een rol krijgt. Dan kan bijvoorbeeld door een ethicus in het team te laten deelnemen.
Erop letten dat in de training van een systeem een grote variëteit aan stemmen wordt gebruikt, is ook een goed vertrekpunt. En de inzet van self-supervised learning, een methode van machinelearning waarbij het model zichzelf traint, dus zonder annotering van testdata door mensen. Dat scheelt enorm veel geld waardoor veel meer data kunnen worden gebruikt voor training.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee