Overslaan en naar de inhoud gaan

'Data-vergiftiging' door kwaadwillenden is serieus gevaar voor toekomst AI

Google, Nvidia, ETH Zürich en Robust Intelligence wijzen op een nieuw gevaar dat opdoemt bij de grootschalige toepassing van deep-learningmodellen. Kwaadwillenden kunnen de werking van deze AI-toepassingen beïnvloeden door gericht gemanipuleerde trainingsdata te verspreiden. De strategie kan uitgroeien tot een nieuwe vorm van malware.
poison
© Shutterstock
Shutterstock

Deep-learningmodellen, zoals bijvoorbeeld het natuurlijketaalmodel GPT dat de basis vormt voor ChatGPT en de nieuwe zoekmachine Bing van Microsoft, zijn getraind op enorme hoeveelheden data die gewoon op het internet worden verzameld. De drie bedrijven en het Zwitserse onderzoeksinstituut laten zien dat het mogelijk is om de werking van dergelijke modellen te veranderen door 'giftige' data te verspreiden via gemanipuleerde websites, meldt ZDNet.

Dat is mogelijk door bijvoorbeeld verlopen domeinnamen te registeren of actieve websites te hacken en daar hun materiaal in onder te brengen. Dat is geen nieuwe methode. Die passen cybercriminelen nu al toe om malware te verspreiden.

Wanneer zo'n site wordt geïndexeerd, worden de kwaadaardige data vanzelf ook meegenomen in de trainingsdatasets. De aanvaller moet wat geduld hebben, maar weet met zekerheid dat de gegevens op enig moment hun invloed hebben op het model dat met die data is getraind.

Goedkoop en makkelijk

Het lijkt onbegonnen werk om een verschil te maken in de enorme hoeveelheid data die voor de training wordt gebruikt. Toch hebben de onderzoekers van de vier organisaties aangetoond dat met het manipuleren van 0,01% van de data in de trainingset het gedrag van het model al is te beïnvloeden. Als er eenmaal toegang is tot een aantal websites, is het verspreiden van de kwaadaardige data vrij eenvoudig en kost weinig.

De onderzoekers geven aan dat zelfs niet eens nodig is de volledige controle over een site te hebben om de aanval op te zetten. Het is bekend dat Wikipedia een belangrijke bron van informatie is voor het verzamelen van trainingsdata. Voor de aanvallers is het gunstig dat iedereen de inhoud van de pagina's kan wijzigen. Komt er onware of niet ter zake doende informatie op te staan, zullen anderen de foute informatie weer verwijderen. Als de aanvaller echter kan voorspellen wanneer een indexatie plaats vindt, kan de tijd dat de foutieve informatie op Wikipedia staat, voldoende zijn om deze 'voor eeuwig' in de trainingsdata te krijgen. De onderzoekers hebben berekent dat de kans op een succesvolle 'vergiftiging' van een Wikipediapagina 6,5% is. En er zijn veel pagina's op Wikipedia.

Beveiligers moeten aan het werk

Er zijn overigens nog geen aanvallen bekend die op deze manier zijn uitgevoerd. De onderzoekers hopen met hun artikel beveiligingsspecialisten te attenderen op dit probleem zodat nagedacht kan worden over beschermingsstrategieën.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in