Beter leren van data kan dankzij nieuwe toetsmethode
Hoe kunnen mensen en computers leren van data? Deze vraag vormt de kern van de vakgebieden statistiek en machine learning – en van mijn proefschrift. Wat is leren precies? Als een onderzoeker (dat kan een mens of een computer zijn) iets wil leren over een onbekend proces, vindt er een interactie plaats tussen haar en de data die door het proces zijn voortgebracht. De taak van de onderzoeker is inductie: een manier van redeneren waarbij er op grond van waarnemingen tot een algemene regel – een generalisatie – wordt gekomen. De onderzoeker begint met enkele veronderstellingen over het onbekende proces, omdat zonder deze voorkennis de datapunten op iedere mogelijke manier zouden kunnen samenhangen en het onmogelijk is tot een generalisatie te komen. Daarnaast bestaat er een verzameling van hypotheses die de onderzoeker kan opstellen of onderzoeken: algemene beschrijvingen van het onbekende proces. Een verzameling hypotheses vormt een model.