Zo repareer je snel dataproblemen bij machine learning

Datascientist verdoen ongeveer de helft van hun tijd aan het opsporen en verwijderen van fouten in hun ongestructureerde trainingsdata omdat dit tot nog toe vooral een handmatig proces is. Drie machinelearningspecialisten zegden hun baan bij Google, Uber en Apple op om ideeën rond het automatiseren van dit proces uit te werken.

Thijs DoorenboschMeer van deze auteur

Hun bedrijf - genaamd Galileo - bestaat al sinds november vorig jaar maar opereerde nog onder de radar. Nu heeft het een bèta-versie klaar van een nieuwe datareparatieplatform dat voorlopig nog alleen op uitnodiging te gebruiken is, staat te lezen in een verklaring die het bedrijf heeft uitgegeven. Het bedrijf heeft 5,1 miljoen dollar van risicokapitaalinvesteerders gekregen om het platform verder uit te bouwen.

Het platform werkt met logs gegenereerd door het model op basis van een paar regels code die worden toegevoegd aan de trainingsdata. Het Galileo-team ontwikkelde een aantal statistische algoritmen die deze logs gebruiken om de aandacht vestigen op de punten waar het model de fout in gaat. Er kunnen vervolgens direct acties aan worden gekoppeld om de geconstateerde problemen oplossen, belooft het team.

Vermijdbare problemen

De drie zeggen op het idee gekomen te zijn door hun eigen werk aan ongestructureerde data bij vorige werkgevers en door gesprekken met honderden datascientists in hun netwerk. Daaruit bleek dat de grootste frustratie en de meeste tijd zat in het geschikt maken van de gegevens om hun modellen te trainen. "Dit is kritisch, maar kostbaar handmatig ad-hoc en langzaam [werk,red], dat leidt tot slechte voorspellingen van het model en vermijdbare vooroordelen (biases) die de productiefase binnensluipen", zegt Vikram Chatterji, medeoprichter en CEO van Galileo.

Hij wijst erop dat grote organisaties steeds vaker ongestructureerde data genereren en tegelijk vaker gebruiken bij machine learning. Het Galileo-platform zou moeten gaan helpen bij het stroomlijnen van dat proces. Het bèta-platform heeft al een nauwkeurigheid van 95%, zei Chatterji tegen The Register.