Neuraal netwerk bewaart onplezierige geheimen
Een neuraal netwerk dat is bedoeld voor het genereren van nieuwe teksten op basis van een door een mens ingegeven tekst - een zogeheten long short-term memory neural network (LSTM) - blijkt onverwacht veel privacygevoelige informatie te kunnen onthullen op basis van de trainingsdata. En dat is niet de bedoeling. Nicholas Carlini - onderzoeker bij het 'Brain'-bedrijfsonderdeel van Google - onderzocht dit probleem samen met zijn oud-collega's van het AI-lab van de UC Berkeley.
Ze kwamen er achter dat zo'n tekstgenererend neuraal netwerk ook creditcardgegevens en burgerservicenummers kan oplepelen die aanwezig waren in de trainingsdata. "Mochten er zeldzame gevoelige gegevens in de trainingsdata voorkomen, dan zou je in het ideale geval verwachten dat het neurale netwerk de informatie niet opslaat of in ieder geval nooit als een onderdeel van een complete zin teruggeeft als antwoord", zei Carlini in een blogpost. "Toch is dat precies wat gebeurt, tenzij daar heel goed op wordt gelet."
Creditcardgegevens en social security numbers
De onderzoekers testten hun hypothese door de zin 'My social security number is 078-05-1120' toe te voegen aan een grote hoeveelheid trainingsdata voor een LSTM-netwerk. Toen zij het getrainde netwerk testten met de de zin ''My social security number is 078-", vulde het systeem dit aan met '05-1120'.
Bij een volgende test trainden zij een LSTM-netwerk op een verzameling e-mails van het failliete energiebedrijf Enron. Na de training konden ze met zogeheten 'tree search'-technologie een heleboel creditcardgegevens en social securitynummers uit het systeem halen.
Carlini start zijn blogpost met de constatering dat het heel belangrijk is dat je bij de ontwikkeling van elke nieuwe technologie jezelf de vraag stelt hoe deze ontwikkeling de privacy van mensen kan raken. En dat geldt zeker bij alles wat met machine learning te maken heeft.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee