Management

Datamanagement
Grabbelton

Big Data kan wel wat scepsis gebruiken

In de 21e eeuw moeten we anders leren denken over informatietechnologie.

18 augustus 2016

In de 21e eeuw moeten we anders leren denken over informatietechnologie.

Het laaghangende fruit is op. De 21e eeuw wordt de eeuw van de complexe systemen: het weer, het brein, Het regenwoud. De manager die alles van alles wil weten, verzuipt onherroepelijk. We moeten anders leren denken over informatietechnologie, wetenschap en politiek. Bijna alles wordt statistiek.

Na een lezing over data­mining voor een groep managers kreeg ik eens de vraag: Stel dat we zelf als bedrijf dataminingsoftware kopen en we gaan aan de slag, wat is dan de kans dat we de plank faliekant misslaan? Ongeveer 50 procent, zei ik.

Ik dacht aan alle bokken die we zelf in onze praktijk geschoten hadden. Er was een Ierse bank, met 255 codes voor zijn klanten, waarbij 87 procent in de categorie ‘overig’ was ingedeeld; adresbestanden van een andere bank waarin de meeste mensen op 11-november-1911 (11-11-11) geboren waren; tweelingen die A. en A. Jansen (Anton en Adri) heetten en op hetzelfde adres woonden; mensen die veroordeeld konden worden op basis van toevallige omstandigheden die maar ‘1 op de 10 miljoen keer’ voorkwamen. Ik wist dat je al gauw twee willekeurige Nederlanders met datzelfde argument onschuldig naar de gevangenis kon sturen.

“De hoeveelheid data in de wereld groeit sneller dan het aantal specialisten dat die data kan begrijpen”

Big Data is voor een groot deel gewoon datamining met meer data en snellere computers. Het gaat niet zozeer om betere algoritmes. De tijd die verloopt tussen de ontdekking van een datamining-algoritme en de doorbraak van dat algoritme is gemiddeld 18 jaar. Het type neurale netwerken dat achter het gehypete Deep Learning zit, was in de jaren tachtig al bekend. Alleen we konden er niks mee. Geen data, geen snelle computers.

Big, bigger, biggest

Het menselijk DNA codeert ongeveer 1010 bits aan informatie. Ons brein heeft ongeveer 1014 synapsen. In een zoutkristal kun je op kwantumniveau 1017 bits aan informatie opslaan. In 2011 schatte men de totale hoeveelheid opgeslagen informatie in de wereld op meer dan 1021 bits. De maximale hoeveelheid informatie die je in een kilogram materie kunt opslaan is 1030 bits. De fysicus Seth Lloyd noemt dit de ultimate laptop, een krachtig machientje van puur plasma dat opereert bij een temperatuur van zo’n 108 graden. De totale hoeveelheid informatie in het hele universum schat hij op 1092 bits.

Briljant

Ik plaag mijn collega’s fysici wel eens: e=mc2. Is dat nu zo briljant? Drie variabelen en twee operatoren? Hadden jullie daar niet eerder op kunnen komen? De meesten zijn ‘not amused’. Feit is dat de empirische wetenschappen groot succes hebben gehad met het beschrijven van complexe verschijnselen in termen van simpele formules. Dat laaghangende fruit is wel een beetje op. De 21e eeuw wordt de eeuw van de studie van de inherent complexe systemen: het weer, sociale interactie, het brein, de menselijke cel, de economie, migratie, internet, het regenwoud et cetera. Dat soort systemen hebben als kenmerk dat je geen beschrijving kunt geven op basis van een paar simpele formules. Het duurt ook heel lang voor we er echt iets van beginnen te begrijpen.

Een soep die rekent

Vanuit de theoretische informatica kun je goed begrijpen dat zeer complexe dynamische systemen zich fundamenteel anders gedragen dan simpele. De fase-overgang vindt ergens plaats rond het moment dat de beschrijving van het systeem exponentieel veel complexer is dan de beschrijving van de kleinste universele Turing-machines die we kennen. Omdat hele kleine systemen van een paar dozijn bits of minder al Turing-universeel kunnen zijn, gebeurt dat redelijk snel. Dan kun je er vrij zeker van zijn dat zo’n dynamisch systeem onder de juiste condities (niet te veel of te weinig entropie, stabiele informatietoestanden) een soort soep wordt die voor zichzelf gaat rekenen. Op dat moment is het hek van de dam. Er zijn allerlei diepe resultaten uit de informatica die ons vertellen dat het gedrag van zo’n systeem onvoorspelbaar is en dat we er geen betrouwbare modellen van kunnen leren. De menselijke cel zit in die regio, het menselijk brein, het internet zelf en verder zo’n beetje alles waar Big Data zich op richt. De studie van dit soort complexiteit, die van andere orde is dan de zogeheten wiskundige chaos, staat nog maar in de kinderschoenen.

Neem ons lichaam. Bij de ontcijfering van het menselijk DNA 15 jaar geleden waren de verwachtingen hooggespannen. Iedereen had een eigen programma, een model, ongeveer 1010 bits groot, en daar lag alles in vast: van de ziektes die je zou krijgen tot de kunst die je mooi zou vinden. Een zee van commerciële toepassingen, zoals personalized health food and medicine, lag open. Inmiddels weten we dat de zaak veel ingewikkelder ligt. De meeste informatie over de mens Pieter Adriaans ligt niet in zijn DNA, maar in allerlei andere, veel complexere, mechanismes. Hoe groot is zo’n model van een individu dan wel? In ieder geval vele ordes groter dan onze DNA-code. Misschien wel 1020 bits, of meer, maar dan komen we al in de richting van een database ter grootte van alle informatie die op aarde is opgeslagen.

Wat zijn de consequenties van dit soort inzichten? De dromen van ‘personalized medicine’ lijken meer op luchtkastelen. Er zijn in Amerika 30 miljoen mensen met een zeldzame ziekte. Ze hebben alleen wel bijna allemaal een andere ziekte. De patiëntenpopulaties zijn te klein om de ontwikkeling van geneesmiddelen te rechtvaardigen. Voor hen bestaat er geen medisch equivalent van het e=mc2. Misschien kan het nog honderden jaren duren voordat we een goed medisch model van de mens hebben, misschien vinden we het wel nooit. Het kan zijn dat er potentieel veel meer verschillende ziektes zijn dan dat er mensen op de aarde rondlopen.

Verzuipen

Veranderingen in de manier waarop we informatie verwerken werken door in de organisatie van bedrijven, van de maatschappij en uiteindelijk in de menselijke psyche zelf. De manager als control freak die alles van alles wil weten, verzuipt onherroepelijk in een zee van data, waarin zelfs de banken niet meer weten welke risico’s ze lopen. De menselijke geest is gevormd door de evolutie en gewend snel conclusies te trekken op basis van weinig informatie. Was dat een leeuw? Rennen! We kunnen psychologisch niet goed omgaan met waarschijnlijkheden en al helemaal niet met de grote hoeveelheid gegevens die de informatietechnologie voor ons openstelt. De moderne manager, de ambtenaar, de politicus, zij hebben een hoeveelheid data en een macht om op basis daarvan beslissingen te nemen die in de geschiedenis zijn weerga niet kent. We moeten daaraan wennen. Het heeft allerlei onverwachte effecten, het stelt nieuwe bestuurlijke en ethische dilemma’s.

De mens is gewend uit weinig informatie
snel conclusies te trekken

Onze geestelijk vermogens worden extreem op de proef gesteld als er angst in het spel is, zoals bij terrorisme of financiële crises. Na 9/11 bestelde het Pentagon onmiddellijk een lading van onze boekjes over datamining (Data Mining, 1996, Addison-Wesley). Altijd bij een terroristische aanslag is de eerste emotie: dit nooit weer, koste wat het kost! Vaak blijkt later dat de dader al in een op datamining gebaseerd risicoprofiel paste en een keer is aangehouden door een goedwillende agent, die hem heeft laten lopen. En altijd is er dan weer de roep om disproportionele maatregelen: iedereen die zich verdacht gedraagt meteen oppakken. Terroristen begrijpen deze mechanismes: door af en toe strategisch een paar burgers te liquideren kun je een hele natie in de greep van de angst brengen en langzaam transformeren tot een politiestaat die uiteindelijk aan zijn eigen controlemechanismes ten onder gaat. In veel landen zijn ze daar intussen aardig in geslaagd.

Het zou voor de gemiddelde burger wel eens interessant zijn om de risicoprofielen die Big Data ophoest op zichzelf toegepast te zien. Hij zou ervan schrikken en misschien terugkomen op de mentaliteit van ‘Als je niks te verbergen hebt, kan het geen kwaad’. Het hebben van een Italiaanse achternaam blijkt in Amerika een indicatie voor bankpasfraude te zijn. Als het een beetje meezit is iedereen een risico voor iedereen (vrij naar Hobbes).

Scepsis

In de 21e eeuw moeten we anders leren denken over informatietechnologie, wetenschap en politiek. De jeugd van de wetenschap is voorbij. Ze is volwassen geworden. De hoeveelheid data in de wereld groeit sneller dan het aantal specialisten dat die data kan begrijpen, laat staan dat politici ze kunnen gebruiken om maatregelen te motiveren, of dat bedrijven er producten op kunnen baseren. We werken nu aan wetenschappelijke problemen die ons nog jaren bezig kunnen houden. Naarmate we meer data hebben, wordt onze kennis minder zeker. Bijna alles wordt statistiek. Er is een mooie formule om de valsnelheid van een kogel te berekenen, maar we kunnen niet verwachten dat er ook zo’n betrouwbare theorie komt over de stijging van de zeespiegel, of een formule die bepaalt of mevrouw X kanker krijgt of tiener Y de kolder in zijn kop krijgt en zijn hele schoolklas over de kling jaagt.

Iedere informaticus weet dat informatie en waarschijnlijkheid samenhangen. Een van de eerste filosofen die over informatie in moderne zin dacht was Hume (1711-1776). Hij vond dat het ons vooral tot bescheidenheid maande. Alle kennis had een statistische component. Je was nooit helemaal zeker, maar je moest toch wat doen. Je kon er naast zitten, maar daar moest je dan van leren. Je moest ook niet te hard over anderen oordelen. Echte zekerheden waren buiten de wiskunde niet te vinden. Hume noemde deze houding gematigd scepticisme. We kunnen wel wat meer Hume gebruiken in de eeuw van Big Data.

reacties en bijdragen

Voor reacties en nieuwe bijdragen van IT-experts:

Henk Ester

020-2356415

h.ester@agconnect.nl

Zie ook Management op AG Connect Intelligence
2
Reacties
abraham 01 september 2016 23:46

Worden er vaak niet twee betekenissen van informatie door elkaar gehaald, dan wel ten onrechte niet onderscheiden van elkaar: Informatie als afbeelding van iets (data + betekenis) en: informatie als specificatie van iets wat bovendien dynamisch, herhalend, kan zijn.
Er is iets mis met de denkwijzen die veel mensen volgen. De dingen worden niet echt steeds complexer, velen hebben alleen nog niet het nieuwe ordenend principe ontdekt: daarmee kun je de 'vermeende' complexiteit weer tot rustige proporties terugbrengen. Prigogine zei het al: 'order out of chaos'. Ik ben tot een structurerend principe + notatie gekomen waarmee ik tot nu toe vwb. ICT en processen/interacties alles, processen, gegevens, organiseren, tijdsvolgorde, herhaling, alle ordeningen (die nodig zijn) aankan.
Met wat ik noem de 'vermeende complexiteit' in het denken van vandaag 'dénkt' men dat allerlei problemen onoplosbaar zijn, zoals betreffende de stijging van de zeespiegel. Het probleem zit hem in het hedendaagse denken dat dingen wíl oplossen met gebaande denkwijzen en notaties. De oplossing is een-voudiger. Ik schreef een boekje dat heet 'Een vermoeden', 'over hoe ik denk dat het denken denkt'.

Bouke 19 augustus 2016 13:58

Vermoedelijk is er wat fout gegaan in de opmaak van exponenten. Er staat bijvoorbeeld dat het brein 1014 synapsen heeft, dit moet waarschijnlijk 10E14 zijn (10 tot de macht 14).

Reactie toevoegen