Zonder 'small data' gaat Big Data de mist in
Daardoor kan Google een actueler beeld geven van de verspreiding van griep, en ook inzicht geven in het aantal mensen dat griep heeft in landen waar geen goede registratie bestaat. Dat is althans de claim.
Aantal griepgevallen overschat
Een viertal wetenschappers heeft die claim aan een nadere analyse onderworpen. De titel van het artikel in Science waarin ze hun bevindingen beschrijven - The Parable of Google Flu: Traps in Big Data Analysis (alleen voor abonnees) - verklapt de conclusie al. Google Flu Trends zat er in de Verenigde Staten zowel in de griepseizoenen 2011-2012 als in 2012-2013 behoorlijk naast. In 100 van de 108 weken overschatte de analyse van Google het feitelijke aantal griepgevallen. Tijdens de piek van het griepseizoen 2012-2013 zat Google Flu Trends er bijna een factor 2 naast. In plaats van de 11 procent die Google telde, was 6 procent van de Amerikanen geveld door de griep. Het maken van projecties op basis van de gegevens van de CDC, waar een vertraging van drie weken in zit, zou veel betere schattingen hebben opgeleverd, stellen de onderzoekers.
Nadere analyse van het waarom van de overschatting brengt de wetenschappers tot de conclusie dat de zoektermen die Google Flu Trends gebruikt om griepgevallen te schatten, niet altijd een goede weerspiegeling zijn van het lijden aan griep. Anderzijds ziet de methode onverwachte ontwikkelingen - zoals het opduiken van het H1N1-A-virus - over het hoofd.
Zoekalgoritmes voortdurend veranderd
Wat ook niet helpt is dat Google zijn zoekalgoritmes voortdurend verandert, stellen de wetenschappers, deels met zijn advertentiebelangen in het achterhoofd. Dat heeft zijn weerslag op het zoekgedrag, waardoor niet vol te houden is dat het zoekvolume naar griepgerelateerde termen een goede basis is om het aantal ziektegevallen voor en na zo'n algoritmewijziging te vergelijken.
Het is, kortom, absoluut noodzakelijk dat je een goed inzicht hebt in de manier waarop gegevens die ten grondslag liggen aan Big Data-analyses verzameld zijn, en wat daar de haken en ogen bij zijn. Zeker wanneer je de gegevens niet zelf hebt verzameld, kan dat nog wel eens een ondoorzichtige materie zijn.
Het beste tegengif tegen de missers die daaruit kunnen ontstaan is, Big Data te combineren met traditionele vormen van informatieverzameling en -analyse met kleinere datasets, zeggen de wetenschappers.
Reacties
Om een reactie achter te laten is een account vereist.
Inloggen Word abonnee