Overslaan en naar de inhoud gaan

Bias in AI komt niet alleen door slechte trainingsdata

Onderzoekers maken een reeks van keuzes bij het implementeren van een AI-toepassing die discriminatie in de hand werken. Dat blijkt uit onderzoek van wetenschappers van de Amerikaanse Cornell en Brown University. Het zijn dus niet alleen de trainingsdatasets die vooroordelen in de hand werken.
Bias
© Shutterstock
Shutterstock

Een van de grote problemen waar de toepassing van kunstmatige intelligentie op stuit, zijn de onbedoelde vooroordelen die de algoritmen binnensluipen. Doorgaans wordt daarbij al snel gewezen op de datasets waarmee het model is getraind. Wanneer groepen over- of ondervertegenwoordigd zijn, zal het model ook geen evenwichtige uitkomst kunnen geven.

Maar de datasets zijn niet de enige oorzaak van die vooringenomenheid van AI-implementaties, zo blijkt uit onderzoek dat is gedaan aan de Cornell en Brown University. Er zit ook een probleem bij de selectie van modellen. De methoden die worden gebruikt om onderscheid te maken tussen de modellen, zijn onderhevig aan interpretatie en beoordeling op basis van een kleine set testdata. Dan wordt geselecteerd op bijvoorbeeld nauwkeurigheid. Vervolgens worden de prestaties verbeterd door het leerproces te herhalen.

De resultaten op basis van de eerste test kunnen echter andere eigenschappen van het model verhullen. Tijdens de trainingsfase worden die versterkt en kunnen een belangrijke invloed hebben op het eindresultaat.

Contextuele informatie bepaalt keuze

De auteurs halen in de wetenschappelijke publicatie een praktijkvoorbeeld aan waarbij proefpersonen werd gevraagd om een ​​‘eerlijk’ huidkankerdetectiemodel te kiezen op basis van de meetgegevens die ze identificeerden. Ze kozen vrijwel allemaal voor een model met de hoogste nauwkeurigheid, ook al vertoonde dit de grootste ongelijkheid tussen mannen en vrouwen. De statistische methode om de nauwkeurigheid te bepalen gaf bovendien geen uitsplitsing van fout-positieven ( per abuis diagnosticeren van kanker terwijl het in feite niet aanwezig is) en fout-negatieven (het missen van een diagnose van kanker). Het opnemen van deze statistieken zou de proefpersonen hebben kunnen beïnvloeden bij het maken van de beslissing welk model het 'beste' was. Het komt er op neer dat contextuele informatie erg belangrijk is bij het selecteren van een model, stellen de onderzoekers.

Maar dat is niet het enige probleem dat de mens introduceert en wat kan leiden tot vooroordelen in AI-modellen. Venturebeat wijst op een onderzoek van MIT waarin fouten bij het labelen van testdata aanleiding geven tot 2.900 fouten in ImageNet, een populaire database voor het trainen van computervisionmodellen. Een ander onderzoek van wetenschappers aan de Colombia University toont aan dat ook de samenstelling van de teams die aan de slag gaan met AI een effect heeft op het creëren van nieuwe modellen. Hoe minder divers het team hoe problematischer de uitkomst.

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in