Big Data kan wel wat scepsis gebruiken
Na een lezing over datamining voor een groep managers kreeg ik eens de vraag: Stel dat we zelf als bedrijf dataminingsoftware kopen en we gaan aan de slag, wat is dan de kans dat we de plank faliekant misslaan? Ongeveer 50 procent, zei ik.
Ik dacht aan alle bokken die we zelf in onze praktijk geschoten hadden. Er was een Ierse bank, met 255 codes voor zijn klanten, waarbij 87 procent in de categorie ‘overig’ was ingedeeld; adresbestanden van een andere bank waarin de meeste mensen op 11-november-1911 (11-11-11) geboren waren; tweelingen die A. en A. Jansen (Anton en Adri) heetten en op hetzelfde adres woonden; mensen die veroordeeld konden worden op basis van toevallige omstandigheden die maar ‘1 op de 10 miljoen keer’ voorkwamen. Ik wist dat je al gauw twee willekeurige Nederlanders met datzelfde argument onschuldig naar de gevangenis kon sturen.