AI-tekst valt te detecteren door 'overbodige woorden'
Wetenschappers hebben een nieuwe methode uitgedokterd om AI-gegenereerde teksten te herkennen. De crux van hun detectie zit in het tellen van 'overbodige woorden', die sinds het begin van het huidige AI-tijdperk zijn opgedoken in wetenschappelijke papers. Zowel kwaliteit als kwantiteit zijn flink beïnvloed door de opkomst van AI-schrijfhulpmiddelen sinds eind 2022.
- Lees ook: Tekstverbetering met ChatGPT
De vier onderzoekers, van de Universität Tübingen in Duitsland en Northwestern University in de Verenigde Staten, hebben hun methode en bevindingen uiteengezet in een pre-print paper die vorige maand is gepubliceerd. Ondanks de uiteenlopende en bekende beperkingen van genAI-tools als ChatGPT gebruiken veel wetenschappers AI-modellen om hun te helpen met het produceren van teksten. Maar hoe wijdverbreid is gebruik van LLM's (grote AI-taalmodellen) in de academische literatuur nu eigenlijk, vroegen de onderzoekers zich af.
Voor/na-vergelijking
Het antwoord op die vraag zijn ze gaan uitzoeken, waarbij ze een behoorlijk betrouwbare detectiemethode hebben ontwikkeld. De wetenschappers zijn daarvoor geïnspireerd door methodes die eerder zijn gebruikt om de impact van de COVID-19 pandemie, schrijft Ars Technica. Voor de impactmeting van de coronapandemie is de oversterfte gemeten en afgezet tegen het recente verleden.
Eenzelfde voor/na-vergelijking hebben de Duitse en Amerikaanse onderzoekers gedaan voor LLM-tekstgeneratie. Het blijkt dat de komst van AI-schrijftools samenvalt met een abrupte toename in de frequentie van bepaalde woorden en schrijfstijlen. Deze vocabulaire verandering is in kaart gebracht door 14 miljoen wetenschappelijke papers door te nemen en te analyseren op woordgebruik. Die teksten zijn gepubliceerd op wetenschappelijk archiefplatform PubMed, tussen 2010 en 2024.
Sinds ChatGPT
Uit die analyse springen overbodige - of zelfs overtollige - woorden naar voren, die vóór eind 2022 zeer zelden werden gebruikt in wetenschappelijke publicaties. Maar die sinds eind 2022 opvallend vaak voorkomen. Het gaat om Engelse woorden als 'delves', 'showcasing' en 'underscores'. Het omslagpunt van eind 2022 is het publieke debuut van OpenAI's AI-chatbot ChatGPT, die bestaande teksten kan aanpassen maar die ook op basis van relatief korte instructies hele lappen teksten kan aanmaken. Na ChatGPT zijn diverse andere, AI-tools uit- en opgekomen.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee