De Flu Trends-toepassing van Google filtert real-time alle relevante zoekopdrachten om uitbraken van griep te registreren – weken sneller dan de traditionele tellingen door gezondheidscentra. Amazon gebruikt de aankoopgeschiedenis van al haar klanten om automatisch persoonsspecifieke boeksuggesties te genereren – vele malen effectiever dan de aanbevelingen van de recensenten die het in de begindagen in dienst had. De politie van Memphis laat haar gigantische database aan misdaadgegevens analyseren om al op de plaats delict aanwezig te kunnen zijn vóór een misdaad plaatsvindt – met als gevolg een daling van criminaliteit van dertig procent.
Dit zijn slechts enkele van de veelgenoemde triomfen van “big data”, een begrip dat inmiddels zo alomtegenwoordig is dat we gerust van een hype mogen spreken. Tegelijkertijd is vaak onduidelijk wat big data eigenlijk betekent. De term vindt zijn oorsprong in dataverzamelingen die te groot zijn om te analyseren met gewone computers, maar tegenwoordig verwijst big data niet zozeer naar hoe big de data zijn, dus naar volume, als wel naar nieuwe mogelijkheden in het aanleggen en analyseren van grote verzamelingen gegevens. Het is op dit punt – het idee dat we kwalitatief nieuwe dingen kunnen doen – waar de hype soms overslaat naar mythevorming. Een berucht voorbeeld is de bewering van Chris Anderson, destijds hoofdredacteur van technologietijdschrift Wired, dat big data het einde van theorievorming heeft ingeluid. Weg met het moeizame wetenschappelijke proces van het opstellen en testen van hypotheses als mogelijke verklaringen voor de data, weg ook met de domeinexperts die deze verklaringen moeten bedenken: alles wat we nodig hebben zijn objectieve algoritmes die de correlaties in de data blootleggen, en de programmeurs die deze algoritmes schrijven. De gehele wetenschapsmethodologie kunnen we terugbrengen tot één vraag: hoe zou Google het aanpakken?
Data spreken nooit voor zichzelf
Deze vorm van "datafundamentalisme" heeft de nodige kritiek losgemaakt, maar steekt nog regelmatig de kop op in populaire werken over big data. Een voorbeeld is de bestseller van Oxford-hoogleraar Viktor Mayer-Schönberger en Economist-redacteur Kenneth Cukier, vertaald als De big data revolutie: hoe de data-explosie al onze vragen gaat beantwoorden. De centrale bewering in dit boek is dat “de data voor zichzelf spreken”. Opnieuw is het idee dat we met voldoende data de inherent subjectieve zoektocht naar verklarende hypotheses over oorzakelijkheden kunnen verruilen voor de objectieve identificatie van correlaties in de data, onbelemmerd door de conventionele gezichtspunten en vooroordelen van traditionele experts. Dit is een krachtig beeld, maar een mythe. Zulke mythes zijn schadelijk, niet alleen omdat ze niet kloppen, maar ook (zoals opgemerkt door Berkeley-hoogleraar en toonaangevend machine learning-onderzoeker Michael Jordan) omdat ze verwachtingen scheppen die niet waargemaakt kunnen worden. Het gevolg is dat op een bepaald moment de bel barst, mensen zich afkeren van de hype, en ook de vele projecten onder de noemer van big data die wel degelijk zeer waardevol zijn de financiële gevolgen voelen.
Het idee dat data op een objectieve wijze voor zichzelf kunnen spreken is een mythe, omdat data altijd geïnterpreteerd moeten worden. Dit behelst aannames of hypotheses over de representativiteit van de data voor het fenomeen waarin we werkelijk geïnteresseerd zijn. Illustratief is het eerder genoemde Google Flu Trends, dat vaak aangehaald wordt omdat het zeer succesvolle voorspellingen deed. In de winter van 2012 waren er bijzonder veel zulke zoekopdrachten, en Flu Trends concludeerde dat een aanzienlijk deel van de bevolking door griep geveld was. Maar Google zat ernaast, met voorspellingen die bijna twee keer te hoog uitvielen: de vermoedelijke werkelijke oorzaak van de piek in zoekopdrachten was de uitgebreide media-aandacht voor griep dat seizoen. Een ander voorbeeld zijn de vele big data-toepassingen die zich baseren op gegevens van Twitter. Als we de impact van de volgende aardbeving in Groningen meten aan de hand van wat mensen op Twitter melden, dan zou het lijken alsof de provinciehoofdstad het zwaarst getroffen is: niet omdat dat werkelijk zo is, maar puur omdat de concentratie Twitter-gebruikers daar veel hoger ligt dan in Oost-Groningen, en in het werkelijke epicentrum bovendien de stroom al uitgevallen is. Dit zijn interpretatiekwesties over de representativiteit van de data voor een bepaald fenomeen in de wereld, kwesties die al beginnen te spelen in het stadium van het vergaren en selecteren van data. Dergelijke kwesties worden des te subtieler in big data-gebaseerd wetenschappelijk onderzoek naar algemene maatschappelijke ontwikkelingen. Het zijn bij uitstek onderzoekers in de sociale wetenschappen die de geavanceerde statistische theorie en jarenlange ervaring hebben die op zulke interpretatiekwesties toegespitst zijn – precies de experts waarvan Mayer-Schönberger en Cukier beweren dat we ze niet meer nodig zullen hebben.
Stel nu dat deze kip een big data-analyse uitvoert op alle kippen op haar boerderij...
En zelfs al zouden we de beschikking hebben over alle relevante data, en slechts de wens hebben deze data door te trekken naar een voorspelling over de toekomst, dan nog hebben we interpretatie in de vorm van hypotheses nodig om dat te doen. In feite is dit het aloude filosofische probleem van inductie. Neem het voorbeeld van Bertrand Russell over de kip die elke dag eten krijgt van haar boer. Iedere dag voelt deze kip zich verder gesterkt in de overtuiging dat haar boer haar de volgende dag weer eten komt brengen. Stel nu dat deze kip een big data-analyse uitvoert op alle kippen op haar boerderij, of zelfs op alle kippen op alle boerderijen uit de wijde omtrek: al deze kippen hebben tot dan toe elke dag getweet dat ze van hun boer eten hebben gekregen. Nu voelt ze zich gerustgesteld in de overtuiging dat ze alle dagen opnieuw eten krijgt – tot die dag dat haar boer langskomt zonder eten, en haar de nek omdraait. De kip was gaan geloven dat haar hypothese als het ware in de data besloten lag, terwijl de keuze voor juist die hypothese eigenlijk bij haarzelf lag, een keuze ten koste van, bijvoorbeeld, de alternatieve hypothese dat met elke dag eten en dikker worden de kans op slachting groter wordt. Dit voorbeeld illustreert een triviaal punt, en in de praktijk is er natuurlijk vaak overeenstemming over wat de plausibele interpretatie is. Maar interpretatie moet er altijd zijn, en zeker in ethisch beladen toepassingen – denk aan het voorspellen of een gevangene opnieuw een misdaad zal begaan – is het belangrijk dat in gedachten te houden: data spreken nooit voor zichzelf.