AI's én mensen foppen AI-detector van ChatGPT-maker OpenAI

De beloofde detectietool van ChatGPT-maker OpenAI om output van die eerder uitgebrache AI-tool te herkennen, is er en valt door de mand. De nieuwe AI die is getraind op AI-geschreven teksten blijkt z'n bedoelde werk niet bepaald goed te doen. Menselijke en AI-producties worden verkeerd gezien, soms na herschrijven.

Jasper BakkerredacteurMeer van deze auteur

bedriegen cheating — © Shutterstock

Shutterstock

Maar OpenAI stelt dat het deze vroege versie van zijn AI Text Classifier heeft uitgebracht om feedback te krijgen. Het inmiddels breed bekende bedrijf hoopt in de toekomst verbeterde methodes voor AI-tekstdetectie uit te brengen. Dat laatste mag wel in de nabije toekomst gaan gebeuren, want vooralsnog lijkt deze nieuwe tool niet bepaald nuttig en kan hij voor misplaatste conclusies gaan zorgen.

Hulp tegen fraude, desinformatie

"We hebben een classificeerder getraind om onderscheid te maken tussen tekst die is geschreven door een mens en tekst die is geschreven door AI's afkomstig van diverse aanbieders", begint OpenAI zijn blogpost. Daarin geeft het bedrijf wel gelijk aan dat het onmogelijk is om alle AI-geschreven tekst betrouwbaar te detecteren.

Maar de makers van ChatGPT geloven dat goede classificeerders kunnen helpen om te informeren over false positives; dus claims dat AI-geschreven tekst eigenlijk geschreven is door mensen. Zulk gebruik van bots als ChatGPT veroorzaakt veel zorgen in bijvoorbeeld het onderwijs. OpenAI noemt zelf als voorbeeld gebruik van AI-tools voor oneerlijkheid in de academische wereld, inzet van AI-chatbots als zijnde menselijke gesprekspartners, en het uitvoeren van geautomatiseerde desinformatiecampagnes.

'Niet volledig betrouwbaar'

"Onze classificeerder is niet volledig betrouwbaar", geeft OpenAI ook aan. In evaluaties die het zelf heeft uitgevoerd, blijkt de nieuwe detectietool in staat om 26% van AI-geproduceerde, Engelstalige teksten te herkennen. Dat relatief kleine percentage wordt bestempeld als 'waarschijnlijk geschreven door AI'. Tegenover die zogeheten true positives, staat 9% aan false positives waarbij menselijke tekstproducties ten onrechte worden geclassificeerd als AI-output.

De mate van betrouwbaarheid van de AI-detector neemt toe naarmate de lengte van de ingevoerde tekst toeneemt. Voor teksten van minder dan duizend karakters is de nieuwe tool "zeer onbetrouwbaar". Volgens OpenAI is de nu uitgebrachte tool in vergelijking met zijn eerdere detector aanzienlijk beter in staat om tekst van recentere AI-systemen te herkennen.

Shakespeare

In de praktijk nu blijkt 'aanzienlijk beter' nog altijd verre van goed of goed genoeg. Diverse mensen zijn al losgegaan op de publiekelijk beschikbaar AI-detector. Eigen teksten, AI-teksten en herschreven teksten zijn ingevoerd en lang niet altijd correct herkend; soms verkeerd en soms onduidelijk. Zo is een boek uit 2015 over machine learning en Python volgens de AI Text Classifier deels 'niet duidelijk', deels 'mogelijk AI-geschreven' en deels 'waarschijnlijk AI-geschreven'. En de eerste pagina van Shakespeares klassieke werk MacBeth is 'waarschijnlijk AI'.

OpenAI just released a new model to distinguish between AI/human written text to protect against ChatGPT.

The classifier was trained on a pair of AI/human written dataset.

However.. I was easily able to trick it by using GPT3 to rewrite the text.

Demo: https://t.co/gGZCvP7nbI pic.twitter.com/CyCrUvexIm
— Lior⚡ (@AlphaSignalAI) January 31, 2023