Zorgen over AI-verzinsels in audiotranscripties door OpenAI-tool
De AI-aangedreven transcriptietool van OpenAI blijkt - net als vele andere AI-taalmodellen - vatbaar voor missers die op het genAI-gebied hallucinaties worden genoemd. Software-ingenieurs, ontwikkelaars en wetenschappers zijn op fouten en verzinsels gestuit, die tot grote zorgen leiden. Whispers wordt namelijk onder meer gebruikt in de zorg: om bijvoorbeeld tekstverslagen te maken van gesprekken tussen artsen en patiënten.
De medische missers van Whisper zijn aan het licht gebracht door onderzoekers en AI-experts, die hun bevindingen delen met persbureau AP (Associated Press). Whisper wordt door diverse organisaties gebruikt in uiteenlopende industrieën, zoals de zorg, ondertiteling voor tv en films, plus openbaar bestuur. Op dat laatste gebied heeft een wetenschapper van de Universiteit van Michigan hallucinaties gevonden in maar liefst acht van de tien audiotranscripties van openbare vergaderingen.
Ook korte, heldere opnames
Een expert op het gebied van machine learning is op een wat minder overweldigend 'hallucinatiegehalte' van Whisper gestuit. In de honderd uur aan audio-opnames die deze onderzoeker heeft geanalyseerd, is in ongeveer de helft daarvan verzinsels aangetroffen. Een derde onderzoeker die de AP opvoert, heeft echter weer schrikbarend meer hallucinaties ontdekt. Bijna alle 26.000 transcripties die hij heeft gemaakt met Whisper bleken verzinsels te bevatten.
Het gaat hierbij niet alleen om lange gesprekken, waarbij pauzes van sprekers gaten in het geprek geven die de AI-tool dan zelf gaat 'invullen'. Ook gaat het niet alleen om audio met ondermaatse opnamekwaliteit. Ook korte audio-opnames met goede geluidskwaliteit worden lang niet altijd goed in tekst omgezet door genAI. Persbureau AP haalt recent informatica-onderzoek aan waarbij wetenschappers 187 hallucinaties hebben gevonden in 13.000 korte, heldere geluidsopnames.
Hoog foutpercentage
Het aantal van 187 verzinsels lijkt wellicht laag, maar dat is een optimistische blik. Het komt namelijk neer op een foutpercentage van 1,4%, legt security-expert Jake Williams uit. "Dat is enorm voor de meeste gebruikscases en zelfs dat [die 1,4% - red.] is uitgaand van een best-case situatie", post Williams op social network Bluesky.
Op een totaal van enkele miljoenen opnames zou dit enkele tienduizenden foute transcripties opleveren. Bij gebruik in de zorg is dit zeker zorgwekkend, omdat het verkeerde diagnoses kan opleveren. AI-tools worden in de Verenigde Staten al omarmt door zorginstellingen, heeft persbureau AP begin dit jaar al gemeld. Dit kan ook slechts het opstellen van berichtjes aan patiënten betreffen, maar ook daarin zijn fouten en verzinsels natuurlijk ongewenst.
OpenAI: benadert menselijke accuraatheid
OpenAI heeft Whisper eind 2022 geïntroduceerd en prijst het aan als een tool die met Engelse spraak de robuustheid en accureitheid van mensen benadert. Tegelijkertijd adviseert de AI-aanbieder dat Whisper niet gebruikt moet worden in high-risk domeinen, waar "fouten in de accuraatheid kunnen leiden tot flinke fouten in de output". Een woordvoerder van het bedrijf verklaart dat het op doorlopende basis bestudeert hoe het hallucinaties kan verminderen en dat feedback van (externe) onderzoekers wordt verwerkt in updates voor zijn AI-modellen.
Ondertussen is een huidige versie van Whisper in staat gebleken om flinke missers te maken. Amerikaanse wetenschappers van de Cornell Universiteit en de Universiteit van Virginia hebben uit onderzoek van duizenden korte audio-opnames geconcludeerd dat bijna 40% van Whispers hallucinaties schadelijk of op z'n minst zorgwekkend zijn.
Van 'umbrella' naar 'terror knife'
Een voorbeeld uit hun onderzoeksdata is dat de gesproken zin "He, the boy, was going to, I’m not sure exactly, take the umbrella" in tekst is omgezet naar "He took a big piece of a cross, a teeny, small piece ... I’m sure he didn’t have a terror knife so he killed a number of people". In een ander voorbeeld is er door Whisper niet-bestaand medicatie opgeschreven: "hyperactivated antibiotics".
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonneeIk zou me eerder 'zorgen' maken om medici die nu volledig vertrouwen op deze AI gegenereerde transcripties. Hoe verzin je het. Dat kan simeplweg niet totdat ze bewezen foutloos zijn (al is 100% foutloos nooit haalbaar is). Of je zet ze eerst alleen in bij gesprekken waarbij risico minimaal is, oftewel bij een foute transcriptie niet direct grote impact kan hebben op patient.
Nieuwe tools en innovaties komen altijd met fouten. Het aantal fouten wordt in de loop van de tijd sterk teruggebracht. Dit is een gegeven waar ik me geen zorgen over zou maken.