Overslaan en naar de inhoud gaan

Harry Potter spil in 'ontleer'-experiment om AI beschermd werk te laten vergeten

Het is mogelijk alle kennis over het bestaan van Harry Potter-boeken, dus ook de karakters en de verhaallijnen, te verwijderen uit Meta's open source Llama 2-7B. Dat is de conclusie die twee onderzoekers van Microsoft trekken op basis van een experiment dat zij hebben uitgevoerd.

Auteursrechtelijk beschermd materiaal vormt een heet hangijzer in het gebruik van de Large Language Model (LLM's) die nu beschikbaar zijn en waar veel gehypte AI-toepassingen op zijn gebaseerd. De AI-modellen zijn doorgaans getraind op grote hoeveelheden teksten die op internet beschikbaar zijn, maar wat ook veel beschermd materiaal omvat. Auteursrechthebbenden voeren nu verschillenden rechtszaken tegen de grote webbedrijven die dit materiaal hebben ingezet voor de training van hun systemen.

Datasets dus toch niet wissen?

Het materiaal weer uit deze modellen halen, is eigenlijk niet mogelijk, is de heersende opvatting onder AI-specialisten. Eventuele juridische overwinningen voor auteursrechthebbenden zou dan het wissen van complete LLM-datasets - en daarop gebaseerde AI's - betekenen. Toch claimen twee onderzoekers, Ronen Eldan van Microsoft Research en Mark Russinovich van Microsoft Azure, dat zij een LLM zodanig kunnen bewerken dat die geen output meer geeft met aan Harry Potter gerelateerde kennis. 

Zij hebben hun bevindingen gepubliceerd in een artikel op arXiv.org. Dat openaccess-platform geeft onderzoekers mogelijkheid om wetenschappelijk onderzoek snel openbaar te maken, maar daarbij heeft het geen peer review voor kwaliteitsborging. Venturebeat heeft deze arXiv-publicatie opgepikt.

Korte procedure

De twee Microsoft-onderzoekers zeggen dat zij erin zijn geslaagd binnen een 'GPU-uur' aan finetuning alle informatie gerelateerd aan Harry Potter effectief te verwijderen uit het Llama 2-7B van Meta. Dat grote taalmodel van Facebooks moederbedrijf had voor de initiële pretraining een forse 184.000 GPU-uur nodig.

De aanpak voor het 'ontleren' bestond uit drie fasen.

  • Eerst werd het model getraind op Harry Potter-materiaal om de gerelateerde tokens te vinden door de voorspellingen van het model te vergelijken met een basismodel.
  • Vervolgens werden de Harry Potter -uitingen vervangen door generieke uitdrukkingen en werden alternatieve voorspellingen gegenereerd die zo veel mogelijk leken op die van het model zonder training.
  • Daarna werd in een laatste ronde nog de resterende originele tekst verwijderd uit het geheugen wanneer daar in een prompt naar werd gevraagd. Uiteindelijk werd het resulterende model getest door er 300 automatisch gegenereerde prompts op los te laten met Harry Potter-gerelateerde vragen.

De conclusie van de twee AI-onderzoekers is dat het mogelijk is het model content te laten vergeten. Bovendien kan dat dan zonder dat het model in de standaardbenchmarks een noemenswaardige achteruitgang in prestaties vertoont. 

Eerste stap

De auteurs plaatsen wel een kanttekening dat het wellicht makkelijker is om deze behandeling uit te voeren met 'fictie'- dan met 'non-fictie'-materiaal omdat fictie meer unieke kenmerken heeft. Ze stellen echter wel dat het een belangrijke eerste fundamentele stap is naar selectief vergeten door LLM's, maar dat meer onderzoek nodig is. 

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee
AY
Aza Yavarian 10 oktober 2023

Dit lijkt op de training die een psycholoog met patiënt uitgeprobeerd om een nare herinnering te kunnen vergeten.

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in