Management

Analytics
hooiberg

Meer data leidt niet automatisch tot beter inzicht

Het inrichten van een data science-discipline.

© CC BY-SA 2.0,  Peter Pearson
21 oktober 2016

Het inrichten van een data science-discipline.

Organisaties hebben groeiende hoeveelheden data tot hun beschikking. Maar meer data leidt niet automatisch tot slimmer gebruik van de data. Voor het toepassen van de slimme algoritmes is een aparte discipline binnen de organisatie nodig: data science.

Een nutsbedrijf voorspelt wanneer een leiding kapot gaat en plant preventief onderhoud in om dit voor te zijn. Een ziekenhuis bepaalt met behulp van beeldherkenning en DNA-analyse of mevrouw Petersen al dan niet baat heeft bij een nieuw medicijn voor haar kankerbehandeling. Een retailer stuurt een klant een paar weken na de aankoop van een printer een e-mail met een aanbieding van nieuwe toner, omdat dat het moment is dat klanten een nieuwe toner bestellen. Het zijn voorbeelden van organisaties die slimme algoritmes toepassen op historische data om hun bedrijfsresultaten te verbeteren.

Vaak gebeurt dit onder de noemer Big Data. De echte Big Data is vooral te vinden in business-to-consumer-markten, denk aan Twitter, Netflix en bol.com. In de meeste organisaties is er niet zozeer sprake van Big Data als wel van ‘medium data’. Het gaat niet om terabytes per dag aan data. Maar de hoeveelheden groeien wel. Businessanalisten lopen tegen beperkingen aan wanneer het aantal rijen groter wordt dan 1.048.576; de grens van Microsoft Excel. De IT-afdeling moet dan ingeschakeld worden om in de datawarehouse-omgeving de juiste views, kubussen of rapporten neer te zetten. Dit gaat nooit met de snelheid die de analist voor ogen heeft en soms schieten ook deze middelen tekort.

Businessanalisten hebben daarnaast nauwelijks ervaring met kwantitatieve methoden en de BI-afdeling beperkt zich tot het extraheren van data uit systemen, transformeren en aggregeren van die data en het maken van views of rapporten. Hoe komen we vanuit zo’n situatie naar het toepassen van de slimme algoritmes? Hiervoor is een data science-discipline binnen de organisatie nodig.

Het startpunt van een data science-discipline

De geboorte van een data science-discipline binnen een organisatie begint met het beantwoorden van de volgende drie vragen: 1) wat willen we ermee, 2) wie gaat het doen en 3) hoe gaan we het doen?

Data science op weg naar volwassenheid

 AG042016 IT-Studies DatascientistNiveau 1: de data science-zandbak

Het data science-team is net gestart met experimenteren. De data scientists en andere teamleden zijn nog individualistisch en onderzoekend bezig. Begin in deze fase niet over businesscases; geef ze de ruimte om te experimenteren en te falen. Je moet ook leren wat NIET werkt. Zorg voor een managementgedragen algemeen budget voor data science-activiteiten. Ad hoc sponsorship vanuit projecten verzandt in discussie en vertraging of afstel. Het team richt zich op eigen educatie, het ontsluiten van databronnen binnen de organisatie en het ontdekken welke vragen er leven in de organisatie. Geef bij voorkeur toegang tot een cloudplatform, zoals Amazon Web Services of Microsoft Azure, zonder veel procedures en richtlijnen, zodat verschillende componenten uitgeprobeerd kunnen worden zonder ingewikkelde infrastructuurinrichting.

Niveau 2: de data science-servicedesk

In deze fase is het team beter bekend met de (on)mogelijkheden van de algoritmes, de eigen data en de techniek. Mogelijk liggen er zelfs al enkele standaardcomponenten op de plank. Het team is beter op elkaar ingespeeld en heeft rudimentaire technieken voor samenwerking zoals een source repository en een centrale plek voor het aanbieden van visualisaties aan de business. Het team beantwoordt op ad-hoc basis businessvragen. Funding kan nu ook deels vanuit de interne klanten komen. Het data science-team verzamelt gaandeweg succesverhalen en maakt medewerkers uit de business duidelijk hoe ze baat kunnen hebben bij meer continue data science in plaats van de beantwoording van ad-hoc vragen. De data scientists ondersteunen experts stapsgewijs in hun werkzaamheden en strooien niet te veel 'magie' ineens over hen uit (ook al stelt de techniek ze daar wel toe in staat).

Niveau 3: continuous data science (en continuous learning)

De algoritmes die het data science-team opstelt kunnen gelijk gedeployed worden naar een productieomgeving. Bij voorkeur worden de algoritmes ook direct bij de aanmaak van nieuwe data incrementeel geüpdatet. Om dit te bewerkstelligen werken de data scientists onder architectuur. Er is niet langer een groot gat tussen het experimenterende data science-team en de beheersmatige IT-afdeling. Het data science-team heeft de bronnen gecentraliseerd en zo breed mogelijk volgens moderne standaarden en api’s ontsloten. De data scientists gaan actief op zoek naar bestaande databronnen binnen en buiten de organisatie en proberen deze waar mogelijk breder te benutten. Het data science-team maakt gebruik van moderne, snelle kanalen (Yammer, intranet, chat) om zowel informatie over nieuwe mogelijkheden te verzenden als vragen en requirements te ontvangen. Periodiek worden bijeenkomsten georganiseerd om de huidige status met andere medewerkers door te nemen en nieuwe initiatieven te identificeren.

Niveau 4: visionaire data science

In deze fase is data science zo verweven met de hele business dat iedereen het data-driven werken in zijn aanpak verweven heeft. Data science wordt als strategisch middel ingezet om nieuwe producten op de markt te zetten en misschien zelf de complete markt op z’n kop te zetten.

Wat willen we ermee?

Zonder doel heeft data science geen bestaansrecht; mensen worden niet aangenomen of ingehuurd om een hobby te bedrijven. We hoeven niet in detail te specificeren wat voor resultaten we verwachten – data science geeft vaak onverwachte resultaten – maar wat we wel willen weten zijn de doelstellingen die we beogen. Er wordt vaak onterecht gesteld dat data science-algoritmes ontwikkeld in een ander vakgebied direct inzetbaar zouden zijn in de eigen problematiek. Een algoritme 'uit de Formule 1' is ingezet bij een zorgverzekeraar om allerlei optimalisaties te vinden die bij de experts niet bekend waren. Hoewel bepaalde data science-algoritmes natuurlijk generiek zijn, is het een illusie om te denken dat dit zonder slag of stoot gaat. Specifieke domeinkennis is altijd nodig voor het succesvol toepassen van data science; de data spreekt niet voor zichzelf. Besef dat data science geen tovermiddel is; het kost veel moeite om voorspellingen aan de hand van data te maken en soms ‘komt er gewoon niks uit.

Een laagdrempelige vorm van data science – en daardoor een mooi startpunt – is process mining. Vrijwel iedere middelgrote en grote organisatie heeft een team Procesontwerp dat in tools als BWise, Mavim of ARIS flowcharts van processen opstelt. Toen wij werkzaam waren als enterprise architect vroegen wij vaak dit soort procesmodellen op om beslagen ten ijs te komen bij een gesprek met de business voor het doornemen van requirements. Een frequente opmerking die we kregen bij het tonen van de procesflow was: “Maar zo loopt dat helemaal niet!” Een ander: “Ja, maar dat is alleen wanneer alles goed gaat.” En daaropvolgend: “Maar zo vaak gaat niet alles goed.”

Process mining is een aanpak ontwikkeld door de Technische Universiteit Eindhoven om vanuit de data te kijken hoe processen daadwerkelijk gelopen zijn. Er wordt geen procesflow getekend, maar gegenereerd vanuit de data. Met de resultaten kun je onder andere vergelijken of de uitvoering van het proces compliant is met het procesontwerp en nagaan waar bottlenecks in doorlooptijden zitten. Het zien van de resultaten van process mining leidt tot nieuwe vragen, waarop andere data science-technieken een antwoord kunnen geven.

Wie gaat het doen?

Wanneer de doelstellingen op hoofdlijnen bekend zijn, is de volgende vraag wie het gaat doen. Data science is een jong en breed vakgebied dat gebruik maakt van veel methoden en technieken die al veel langer bestaan. Er bestaan nog nauwelijks wijd geaccepteerde standaardcertificeringen. Gelukkig hebben afgelopen jaren veel universiteiten data science-opleidingen ontwikkeld. Zij brengen hiervoor vakgroepen uit de wiskunde, informatica en bedrijfskunde bij elkaar, soms nog gecombineerd met biomedische vakgroepen. De wat oudere data scientists – voel u niet beledigd, hiermee bedoelen wij iedereen ouder dan een jaar of 28 – hebben natuurlijk niet een ‘echte’ data science-opleiding kunnen volgen.

Oudere data scientists hebben verschillende achtergronden. Wees realistisch; niet iedereen is geschikt om data scientist te worden. Businessanalisten zijn vaak mensen die ‘handig zijn met data’. Zij kunnen data bij elkaar queryen, tot op zekere hoogte transformeren en presenteren in een rapport. Een data scientist kan dit ook, maar is daarnaast bekend met diverse wiskundige technieken. Op enkele uitzonderingen na zien wij hierin mensen met een universitaire bèta-achtergrond het meest succesvol opereren, zoals wiskundigen, natuurkundigen, econometristen, informatici en biologen met een ‘harde specialisatie’ zoals DNA-analyse of epidemiologie.

Bij het opleiden van eigen mensen is het belangrijk om na te gaan of mensen affiniteit hebben met wiskundige/statistische modellen en daarnaast achter de knoppen willen zitten; aan een data scientist die alleen maar Powerpoints kan opstellen en artikelen kan schrijven heb je niets. Een groot deel van het werk zit in het ontsluiten van data, het transformeren van data, het op orde krijgen van de kwaliteit van data. Een data scientist gaat als een varken in de modder aan de slag met een nieuwe dataset.

In plaats van het opleiden van eigen medewerkers is werven een optie. Dit is vaak niet eenvoudig vanwege het gebrek aan expertise. Wij zien dat hiervoor geregeld mensen uit het buitenland gehaald worden. Een mogelijkheid is het binnenhalen van externe expertise of het (deels) outsourcen van data science.

Hoe gaan we het doen?

Om aan de slag te laten gaan hebben data scientists een sandbox nodig. Zij moeten toegang krijgen tot data uit de bronsystemen zonder daarbij de bronsystemen zelf te belasten. Het is niet aan te raden direct met Big Data-oplossingen zoals Hadoop aan de slag te gaan. Er komt best wel wat infrastructureel werk kijken bij het inrichten van een cluster (tenzij je het in de cloud doet) en het kan prijzig zijn. Probeer eerst eens te experimenteren met wat kleinere datasets om een idee te krijgen van de (on)mogelijkheden van data science. Zelf zijn wij groot voorstander van het gebruik van de opensource-taal en -omgeving R. R kent heel veel verschillende packages, waardoor heel verschillende type analyses en visualisaties mogelijk zijn. Een goed alternatief is Python. Python is natuurlijk al een veel gebruikte programmeertaal en heeft de laatste jaren veel extra packages gekregen op het gebied van data science. Voor process mining is er het opensourcepakket ProM.

Dit zijn allemaal pakketten en omgevingen die, in tegenstelling tot Excel, niet heel eenvoudig zijn; programmeerervaring en technische kennis zijn vereist om dit snel op te pakken. Een data scientist die alleen Excel kent zal in onze ogen echter nooit echt succesvol zijn. Excel mist gewoon de benodigde analyse- en visualisatiemogelijkheden. Daarnaast is het totaal ongeschikt om als rekenmodule in een productieomgeving te integreren.

Zie ook Management op AG Connect Intelligence

Reactie toevoegen