Vooroordelen standaard in data

Misschien kent u deze reclame uit 1999 nog: een groepje Hollanders wil in Friesland het ijs op, maar vragen eerst een passerende Fries of het kan. Deze antwoordt: ‘Het ken net.’ Ze gaan het ijs op en zakken erdoorheen.

Reinoud KaasschieterMeer van deze auteur

In 1999 waren er nog geen chatbots of kunstmatig intelligente systemen te koop. Dus waar toen de spraakverwarring alleen leidde tot een nat pak, kunnen de gevolgen nu groter zijn. Waarom? Omdat er nu al heel veel beslissingen genomen worden door algoritmes. En wanneer deze algoritmes worden gevoed met de verkeerde data, nemen ze ook de verkeerde beslissingen.

Verstaat je chatbot Fries, Twents, Limburgs of een ander dialect? En waarom niet? Het antwoord is simpel, omdat de bot daarop niet is getraind. Wil een intelligente machine, en ik schaar spraakherkenning hier ook onder, iets begrijpen, dan moet haar dat geleerd zijn. En wat haar niet geleerd is, weet zij ook niet.

Discriminatie

Helaas is het zo dat de datasets niet altijd even goed zijn. Eigenlijk bevatten alle datasets bias. Dat wil zeggen, de data zijn verzameld met een bepaald vooroordeel. Of er zijn bepaalde groepen mensen uitgesloten. Meestal niet opzettelijk, maar toch merkbaar. Wanneer deze bias leidt tot discriminatie op basis van gender, etniciteit of anderszins, is er reden tot zorg. Joy Buolamwini van het MIT ontdekte bijvoorbeeld dat vrouwen met een donkere huidskleur niet goed worden herkend door gezichtsherkenningssoftware. Software die gewoon op de markt verkrijgbaar is.

Ook Google onderkent dit probleem door te zeggen: ‘Menselijke gegevens bevatten standaard menselijke vooroordelen. Hiervan op de hoogte te zijn is een goed begin (…).’

Wanneer we zelf algoritmes gaan gebruiken om beslissingen te laten nemen, is het dus belangrijk eens goed naar de data te kijken. Maar wat als je de software kant-en-klaar van de markt haalt?

Fouten

Neem als voorbeeld de huidige beeldherkenningssoftware. Deze software presteert tegenwoordig uitstekend. Bij de herkenning van alledaagse voorwerpen doet de machine het al beter dan de mens. Dat komt doordat deze software uitgebreid getraind en getest is met miljoenen, misschien wel miljarden, voorbeelden. Maar hij maakt nog steeds fouten, net als mensen.

Wie deze software gaat gebruiken, maakt gebruik van de schat aan ervaring die de software al heeft opgedaan bij de leverancier en eerdere gebruikers. Dat is mooi, want daardoor kunnen projecten met AI veel sneller gaan. De systemen hoeven niet meer uitgebreid getraind te worden. Maar de keerzijde is, je weet niet wat en hoe hij geleerd heeft. En welke bias je in huis haalt. De software zelf (en de softwareleverancier) zal het niet vertellen.

Onbewust

Je kan dan zomaar onbewust vooroordelen in huis halen. Onbewust, maar wel met alle gevolgen voor de beslissingen die de organisatie neemt. Sluiten we geen bevolkingsgroepen uit? En laten we daarmee geen kansen liggen of erger, halen we het nieuws omdat we onbewust zijn gaan discrimineren? Want daarmee wil je niet op sociale media of de televisie komen.