Linguistische vingerafdruk
Wat velen niet weten, is dat taalgebruik onderhevig is aan allerlei gewoontes. Zo kun je veelal vaststellen of een stuk tekst native is of niet. Aan bepaalde dingen kun je vaak ook zien uit welk land men dan wel afkomstig is. Sterker, je kunt vaak achterhalen of de auteur een man of vrouw is, en ook in dit geval bleek dat het mannelijk pseudoniem Robert Galbraith te goed bleek te zijn in het beschrijven van vrouwenkleding.
Wat helpt is het hebben van een zogeheten corpus waarvan je ook echt iets weet. Dus bijvoorbeeld boeken van Rowling voor het vergelijken. Of boeken in het Nederlands om te kijken of een andere tekst ook in het Nederlands is gemaakt. De technieken daarvoor zijn velerlei. Woordlengte, woordfrequentie, woordstammen, specifieke woorden of constructies, et cetera.
Maar het kan nog verfijnder. In sommige talen bestaan bijvoorbeeld geen mannelijke of vrouwelijke voornaamwoorden. Dus een typische fout van iemand met zo'n taalachtergrond zijn opvallend veel fouten op juist dat gebied. Of talen waarin geen lidwoorden bestaan. Als je dan schrijft in een taal die wel lidwoorden bevat, zal de foutfrequentie voor lidwoorden hoger zijn en dat duidt op mensen uit zo'n taalgebied.
Voor het automatisch detecteren van taal is een algemene techniek het gebruik van het zip-programma. Bijvoorbeeld, je wilt van honderdduizenden bestanden weten welke in het Nederlands en welke in het Engels zijn geschreven. Ze allemaal lezen is natuurlijk geen optie. Je neemt dan twee grote teksten waarvan je al weet dat ze in het Engels het Nederlands zijn. Die zip je en je kijkt hoe veel bytes je dan over hebt. Zip werkt onder andere met duplicate string elimination. Dus bij herhalende data wordt een referentie naar het eerste voorkomen gegeven, en zo wordt een tekst korter. Als je nu een onbekende tekst zipt met zowel de Engelse als Nederlandse tekst, en je kijkt naar de nieuwe gecomprimeerde omvang, dan zal als de tekst Nederlands is, de omvang van de gecombineerde zip veel kleiner zijn dan de omvang in combinatie met de Engelse tekst. Immers bij het combineren van Engels en Nederlands is veel minder herhaling, dus zal de compressie minder effectief zijn hetgeen zich uit in minder compressie. En bij het comprimeren van Nederlands en Nederlands, is de herhaling groter, dus zal die zip kleiner zijn.
Meer en meer stemmen gaan op om anoniem nepnieuws tegen te gaan. En met behulp van linguïstische wetenschap kunnen we mogelijk de identiteit van auteurs achterhalen. Benieuwd wie Q bijvoorbeeld is? Linguïsten uit Frankrijk en Zwitserland hebben wel een idee.
MAGAZINE AG CONNECT
Dit artikel is ook gepubliceerd in het magazine van AG Connect (april 2022). Wil je alle artikelen uit dit nummer lezen, zie dan de inhoudsopgave.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee