AI-model Whisper herkent, vertaalt, transcribeert audio bijna net zo goed als een mens
Whisper is getraind op 680.000 uur aan audio-data en bijbehorende transcripts in 98 talen, die op het internet verzameld werden, schrijft Ars Technica. Volgens OpenAI leidde dat ertoe dat het model beter kan omgaan met accenten, achtergrondgeluiden en technische taal. Daarnaast maakt dit het mogelijk om in meerdere talen te transcriberen en om de audio naar het Engels te vertalen.
Het nieuwe AI-model breekt hiervoor de audio op in stukken van 30 seconden, die vervolgens in een encoder worden gestopt. De decoder is getraind om het bijbehorende tekstbijschrift te voorspellen. Daarbij worden ook speciale tokens gebruikt waarmee het model taken uit kan voeren als taalidentificatie, meertalige spraaktranscriptie en vertaling naar het Engels.
OpenAI heeft Whisper volledig open source gemaakt, in de hoop dat het een bouwsteen kan worden om spraakverwerking en toegankelijkheidstools te verbeteren. Het AI-model is te vinden op GitHub.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee