Innovatie & Strategie

Datamanagement
Big data

Data scientist: de nieuwe hogepriester?

Ook voor data analyse geldt 'garbage in is garbage out'

© CC BY 2.0 - Flickr.com KamiPhuc
12 juli 2017

We worden om de oren geslagen met wonderlijke verhalen uit de wereld van data. Termen als ‘big data’, ‘business analytics’, ‘data mining’, ‘data-gestuurd werken’ et cetera zoemen zelfs rond in directiekamers; de roep om data scientists klinkt luid. Terecht? Allicht wel, maar er zijn ook kanttekeningen bij te plaatsen.

Data zijn per definitie onnauwkeurig omdat ze het resultaat zijn van talloze assumpties, interpretaties, selecties, rubriceringen, et cetera. Ze zijn, in navolging van wat mijn favoriete filosoof Rorty over taal zegt, geen afbeeldingen van de werkelijkheid maar instrumenten om met die werkelijkheid om te gaan en dus onderhevig aan vervorming en manipulatie. Statistische verwerking ervan verhelpt dit subjectieve karakter ervan niet, integendeel: het versterkt het alleen maar.  

Data zijn daarenboven een heuse industrie geworden in de handen van brokers die de oorsprong en adequaatheid van hun data angstvallig geheimhouden. Dat deze databanken vol fouten zitten blijkt alleen al uit de recente heisa rond de World-Check zwarte lijst van ‘financieel criminelen’ (waar u en ik ook op zouden kunnen staan, al kunnen we dat niet nagaan). Ook hier geldt ‘garbage in, garbage out’.

Meer dan aan data scientists die de analytics genereren hebben we behoefte aan kundige gebruikers die de uitkomsten kunnen interpreteren en vertalen naar waarde creërende en bovenal verstandige beslissingen: ‘evidence based’ en ‘experience based’ gaan hand in hand. Onderdeel van hun expertise is dat zij middels onafhankelijke validatie nauwlettend oog hebben op de kwaliteit van de brondata en de veronderstellingen achter de analysemethoden, maar vooral voortdurend rekening houden met de quasi zekerheid dat de data niet perfect zijn. Strategieën en acties die bouwen op het blindelings volgen van de uitkomsten van data science in de automatische aanname dat deze accuraat zijn, leiden onvermijdelijk tot problemen en teleurstellingen. Omzichtigheid is het kenmerk van de goede beslisser, meer dan ooit in het data tijdperk.

Reactie toevoegen
3
Reacties
jaap@jakarman.nl 14 augustus 2017 20:55

Het wonderlijke van de big data hype is dat het gebaseerd is op methodieken die al bekend waren in de jaren 80. Veel wetenschappelijk onderzoek is op data analyse gebaseerd met een degelijke onderbouwing. Het statisch relevant moet je naar waarde schatten (gewoonlijk 95% zekerheid als aanname).

Waar echt verbetering nodig is: het onbegrip tussen a/ data-analyse b/ de gangbare ICT techneuten c/ Het dataware house als modellering voor BI Business Analytics d/ de gebruikers.
Een goed gedragen design pattern met een architectuur is daarbij voor een "good practice" hoogst noodzakelijk

Anoniem
Rutger Gooszen 19 juli 2017 22:10

Beste Rik,
Een nuancering is zeker op zijn plaats. De heilige graal van data is vaak overgewaardeerd. De belofte van Big Data analyse is wel dat bij voldoende grote sets de kwaliteit van sommige data best wat minder mag zijn. Je hebt ook geen zekerheid over de kwailteit zoals bij corporate data in een warehouse. Maar de wisdom of the crowd principes zouden ook gelden bij analyse van Big Data. Dat zou een leuk wetenschappelijk onderzoeksonderwerp kunnen zijn.

Anoniem
Paul Malschaert 18 juli 2017 08:30

Rik, ik zou het niet beter kunnen verwoorden; wel erbij vermeld voor d duidelijkheid dat als deze assumpties zijn ingevuld het een fantastisch bijdrage levert.

Anoniem