Pas als jouw data er niet meer toe doen kun je van echte privacy spreken
Machine learning heeft zijn weg naar tal van toepassingen gevonden. Maar zo’n systeem heeft data nodig, en de output van een algoritme kan in theorie best wat onthullen over de mensen in die dataset. Hoe zorg je ervoor dat de privacy van de mensen in die dataset behouden blijft, terwijl ook de accuraatheid van het algoritme hoog blijft?
Stel je voor: je maakt met natural language processing een systeem dat vergelijkbaar is met de zoekbalk in Google. Iemand typt een stuk tekst in en het systeem vult de zin automatisch aan. Om dit model te trainen gebruik je een speciale dataset, met privégegevens van allerlei Amerikanen. Maar in die dataset zitten alleen gegevens van witte Amerikanen, en van één Afro-Amerikaan. Als je nu de zin intypt “het burgerservicenummer van een Afro-Amerikaan is”, dan vult het model de zin aan met het daadwerkelijke burgerservicenummer van deze persoon.