Licht in black box van machine learning

Wetenschappers van de Universiteit van Maryland analyseren hoe machinelearning-algoritmen te werk gaan. Een van de verrassende resultaten is dat algoritmes verbeterd kunnen worden door ze te trainen op 'onzin'.

Thijs DoorenboschMeer van deze auteur

Zonnebloem — © CC BY-SA 2.0 - Flickr.com

CC BY-SA 2.0 - Flickr.com

Hoe machinelearning-algoritmen met een antwoord op de proppen komen, is een black box. De mechanismen zijn ongeveer bekend want de ontwerpers van het systeem hebben de code geschreven waarmee het systeem kan leren. Maar hoe het systeem uiteindelijk na het scannen van heel veel plaatjes van een kat, ook een kat herkent in een nieuw aangeboden plaatje, is onduidelijk.

Het grote voordeel van dergelijke machinelearning-systemen is dat ze na een intensieve training in veel gevallen beter, maar in ieder geval veel sneller dan mensen beelden kunnen analyseren. Toch gaat het ook fout. Juist die fouten waren aanleiding voor de groep van Jordan Boyd-Graber, associate professor of computer science aan de Universiteit van Maryland om te proberen beter zicht te krijgen op hoe de black box functioneert. De wetenschappers presenteren hun werk deze week op de 2018 Conference on Empirical Methods in Natural Language Processing.

Een woord is genoeg

Ze startten met te analyseren wat de minimum input is voor een aantal machinelearning-systemen om correct antwoord te geven. Gemiddeld waren slechts drie woorden nodig, maar in sommige gevallen maar slechts één. Zo werd een foto van een zonnebloem ingevoerd met een tekstgebaseerde vraag: "Wat is de kleur van de bloem?". In dat geval antwoordde het systeem keurig 'geel'. Na het herformuleren van de vraag bleek zelfs alleen 'bloem?' het antwoord 'geel' op te leveren.

Ze gebruikten ook de complexere situatie waarbij de tekstgebaseerde invoer was: "In 1899, John Jacob Astor IV invested $100,000 for Tesla to further develop and produce a new lighting system. Instead, Tesla used the money to fund his Colorado Springs experiments." Toen de onderzoekers het algoritme de vraag stelden: "What did Tesla spend Astor's money on?" kwam het correcte antwoord: "Colorado Springs experiments." Maar dat antwoord kwam ook wanneer slechts de vraag "did?" werd gesteld.

Machine learning behoorlijk stom

Uit de experimenten blijkt dat dergelijke algoritmen ook bij het stellen van onzinnige vragen, toch met zinnige antwoorden op de proppen komen. "De conclusie is dat al dit fancy machinelearning-gedoe in feite behoorlijk stom kan zijn.", concludeert Boyd-Graber. "De systemen worden nooit getraind met onzin-zinsneden of enkele woorden. De modellen weten dus niet wanneer ze in de war moeten raken door deze voorbeelden. De meeste algoritmen 'dwingen' zichzelf met een antwoord te komen, ook al hebben ze onvoldoende of conflicterende gegevens. Daar ligt vermoedelijk een deel van de oorzaak dat deze systemen soms foute of onzinnige antwoorden geven."

Volgens Boyd-Graber moeten de modellen dus meer getraind worden op het feit dat zij ook een vraag niet 'begrijpen'.