Overslaan en naar de inhoud gaan

Zonder 'small data' gaat Big Data de mist in

Google Flu Trends wordt veel geciteerd, mede omdat Google ook wel wilde weten dat het zo'n nuttig gebruik kan maken van de honderden miljoenen zoekopdrachten die het dagelijks verwerkt. Uitgangspunt van Googles Flu Trends is dat er een correlatie bestaat tussen het aantal zoekopdrachten met griepgerelateerde termen en het aantal personen dat griep heeft.
Tech & Toekomst
Shutterstock
Shutterstock

Daardoor kan Google een actueler beeld geven van de verspreiding van griep, en ook inzicht geven in het aantal mensen dat griep heeft in landen waar geen goede registratie bestaat. Dat is althans de claim.

Aantal griepgevallen overschat

Een viertal wetenschappers heeft die claim aan een nadere analyse onderworpen. De titel van het artikel in Science waarin ze hun bevindingen beschrijven - The Parable of Google Flu: Traps in Big Data Analysis (alleen voor abonnees) - verklapt de conclusie al. Google Flu Trends zat er in de Verenigde Staten zowel in de griepseizoenen 2011-2012 als in 2012-2013 behoorlijk naast. In 100 van de 108 weken overschatte de analyse van Google het feitelijke aantal griepgevallen. Tijdens de piek van het griepseizoen 2012-2013 zat Google Flu Trends er bijna een factor 2 naast. In plaats van de 11 procent die Google telde, was 6 procent van de Amerikanen geveld door de griep. Het maken van projecties op basis van de gegevens van de CDC, waar een vertraging van drie weken in zit, zou veel betere schattingen hebben opgeleverd, stellen de onderzoekers.

Nadere analyse van het waarom van de overschatting brengt de wetenschappers tot de conclusie dat de zoektermen die Google Flu Trends gebruikt om griepgevallen te schatten, niet altijd een goede weerspiegeling zijn van het lijden aan griep. Anderzijds ziet de methode onverwachte ontwikkelingen - zoals het opduiken van het H1N1-A-virus - over het hoofd.

Zoekalgoritmes voortdurend veranderd

Wat ook niet helpt is dat Google zijn zoekalgoritmes voortdurend verandert, stellen de wetenschappers, deels met zijn advertentiebelangen in het achterhoofd. Dat heeft zijn weerslag op het zoekgedrag, waardoor niet vol te houden is dat het zoekvolume naar griepgerelateerde termen een goede basis is om het aantal ziektegevallen voor en na zo'n algoritmewijziging te vergelijken.

Het is, kortom, absoluut noodzakelijk dat je een goed inzicht hebt in de manier waarop gegevens die ten grondslag liggen aan Big Data-analyses verzameld zijn, en wat daar de haken en ogen bij zijn. Zeker wanneer je de gegevens niet zelf hebt verzameld, kan dat nog wel eens een ondoorzichtige materie zijn.

Het beste tegengif tegen de missers die daaruit kunnen ontstaan is, Big Data te combineren met traditionele vormen van informatieverzameling en -analyse met kleinere datasets, zeggen de wetenschappers.


Gerelateerde artikelen
Gerelateerde artikelen

Reacties

Om een reactie achter te laten is een account vereist.

Inloggen Word abonnee

Bevestig jouw e-mailadres

We hebben de bevestigingsmail naar %email% gestuurd.

Geen bevestigingsmail ontvangen? Controleer je spam folder. Niet in de spam, klik dan hier om een account aan te maken.

Er is iets mis gegaan

Helaas konden we op dit moment geen account voor je aanmaken. Probeer het later nog eens.

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in

Maak een gratis account aan en geniet van alle voordelen:

Heb je al een account? Log in