Flickr / Bob Jagendorf

Het betrouwbaarheidsinterval van de wetenschap: een significant probleem

De hoge druk op onderzoekers in het huidige onderzoeksklimaat (“publish or perish”) zorgt voor de afbrokkeling van wetenschappelijke integriteit en kwaliteit. Het is belangrijker om eerder te zijn met een vondst dan er zeker van te zijn het bij het juiste eind te hebben. Het vervolgens verifiëren van bevindingen wordt in de academische wereld nauwelijks gedaan, aangezien het carrièretechnisch onvoordelig is om een replicatiestudie uit te voeren.

De fraudezaken met grote namen uit de wetenschap in de hoofdrol zijn de excessen, uitvergroot in de media. Maar er is een veel hardnekkiger probleem. Waar wetenschap een zelfregulerend systeem zou moeten zijn met cumulatief voor- of tegenbewijs, lijken wetenschappelijke onderzoeksresultaten nu versnipperd en  regelmatig onbetrouwbaar te zijn. Ook in vooraanstaande wetenschapsbladen wordt onderstreept dat experimentele data uit de moderne wetenschap zich maar moeilijk laten reproduceren. De voor de hand liggende oorzaak hiervan is fraude, maar het ligt subtieler dan dat: er is een groeiend gebrek aan solide methodologie en statistische vaardigheden.

Er is een groeiend gebrek aan solide methodologie en statistische vaardigheden

In de wereld om ons heen zien we overal onvoorspelbare variatie: de temperatuur varieert niet alleen per dag en per seizoen, maar ook over de jaren heen, en persoon A is bijvoorbeeld minder optimistisch ingesteld dan persoon B. De wetenschap houdt zich bezig met mogelijke verschillen die verder gaan dan alleen natuurlijke variatie en de oorzaken hiervan: is er nu echt sprake van opwarming van de aarde en is persoon A depressief, of vallen deze observaties binnen het spectrum van natuurlijke variatie? De wetenschap zou een stuk makkelijker zijn zonder deze natuurlijke variatie, heldere verschillen zouden immers een stuk makkelijker aan te wijzen zijn. Echter, de natuur is nu eenmaal variabel en daar dient in de wetenschap statistisch en methodologisch gezien rekening mee gehouden te worden. En dit is precies wat onderzoekers vergeten lijken te zijn.

Twee kernzaken van wetenschappelijk onderzoek waar dit tot uiting komt zijn het onderscheidend vermogen van een experiment en de onafhankelijkheid van observaties binnen een experiment. Wanneer een van de twee niet in orde is, vormt dit een groot probleem voor de betrouwbaarheid van de conclusies van een onderzoek. Gebruikte technieken in onderzoeken worden steeds geraffineerder en complexer doordat subtiele, maar essentiële, verschillen onderzocht worden. Deze twee methodologische en statistische zaken komen daardoor eerder in het gedrang aangezien het nog moeilijker wordt om echte verschillen te scheiden van natuurlijke variatie. Daarom zijn solide methodologie en statistiek meer dan ooit cruciaal.

Laten we een voorbeeld nemen van een onderzoek naar een mogelijk verschil tussen een groep mét en een groep zonder een genetische modificatie/afwijking. Daarbij zijn er twee mogelijke realiteiten: er is in werkelijkheid geen of in werkelijkheid wel een verschil tussen de twee wat groter is dan natuurlijke variatie alleen. Wanneer de onderzoeker de uitkomsten van het experiment gaat bekijken, zijn er twee mogelijke onderzoeksconclusies : je vindt wel of geen verschil. Echter, tussen de ‘werkelijkheid’ en het ‘vinden van de werkelijkheid’ zijn alle vier de combinaties tussen de werkelijkheid en de getrokken onderzoeksconclusies mogelijk.

Elk experiment dient zo opgezet te zijn om het vinden van een werkelijk bestaand verschil zo groot mogelijk te maken. Deze kans is niet de significantie maar wordt het onderscheidend vermogen of ook wel power genoemd. Hierbij is het aantal metingen cruciaal, om zo werkelijke verschillen te kunnen onderscheiden van natuurlijke variatie. Ten tweede is het essentieel om de kans dat een onbestaand verschil wordt bestempeld als een bestaand verschil zo klein mogelijk te maken. Laten we deze kans de vals alarm ratio noemen.

Onderzoekers zijn zich vaak niet bewust van de (lage) power van hun experiment.

Met de power is het beslist niet goed gesteld in de bètawetenschappen. Recent onderzoek heeft aangetoond dat bijvoorbeeld in de hersenwetenschappen de gemiddelde power een stuitende 20% is (Button et al, Nature Reviews Neuroscience, 2013), voornamelijk veroorzaakt door een te laag aantal metingen. Een power van 20% betekent het volgende: stel dat een medicijn tegen de ziekte van Alzheimer onderzocht wordt wat feitelijk werkt, dan heeft men een kans van één op vijf om ook daadwerkelijk te vinden dat het medicijn werkt. Hierdoor wordt het aantonen van bestaande effecten eerder Russisch roulette dan een kwestie van degelijk onderzoek. Conform afspraken tussen wetenschappers, wordt een power van 80% als adequaat gezien. Onderzoekers zijn zich vaak niet bewust van de (lage) power van hun experiment, noch van het bijkomende probleem dat dit met zich mee brengt: de “winner’s curse”.

De “winner’s curse” duidt op het feit dat effecten die gevonden worden in underpowered studies dikwijls een artefact zijn, een toevalstreffer, en heeft wederom te maken met variatie. Het vervelende van toevalstreffers is dat je ze, net als beginnersgeluk, niet snel nog een keer hebt. Dit komt omdat ze een uitschieter binnen de natuurlijke variatie zijn en daarom geen realistische afspiegeling van de werkelijkheid. Simpel gezegd, hoe minder meetpunten je hebt, hoe slechter in te schatten is of de meetpunten een goede afspiegeling van de werkelijkheid zijn. Hierdoor is er een groot risico om een verkeerde conclusie te trekken uit onderzoek met weinig observaties, zoals bij het zien van een enkele dode wolf langs de weg concluderen dat de wolf terug is in Nederland.

Daarnaast is statistiek geen spandex: one size does not fit all. De ene statistische analyse is de andere niet, er zijn criteria waaraan voldaan moet worden. Dit is noodzakelijk om de juiste conclusies aan experimentele observaties te kunnen verbinden. Dit betekent dat de gebruikte statistische technieken moeten meegroeien met de alsmaar geraffineerder wordende experimentele technieken.

Een voorbeeld hiervan vinden we in de biologische hersenwetenschappen. Hier wordt een van de meest fundamentele aannames in het doen van statistische analyses beproeft: de aanname dat alle observaties binnen een test onafhankelijk van elkaar zijn. Anders gezegd, alle observaties moeten een afspiegeling van natuurlijke variatie zijn, en deze variatie wordt niet verminderd doordat sommige observaties verwant zijn aan elkaar. In de hersenwetenschappen is het door technische vooruitgang mogelijk om observaties te verzamelen uit alsmaar diepere lagen van het organisme: van observaties aan een proefdier naar observaties aan de cellen van een proefdier naar observaties op subcellulair niveau. Niet geheel onverwacht zijn observaties afkomstig uit dezelfde cel of proefdier vaak wel verwant aan elkaar: observaties uit dezelfde cel of proefdier lijken meer op elkaar dan wanneer vergeleken met observaties uit een andere cel of proefdier. Wanneer hier geen rekening mee wordt gehouden, wordt de steekproefgrootte onterecht opgeblazen aangezien niet elke meetwaarde unieke variatie toevoegt voor het beantwoorden van de onderzoeksvraag.  Dit heeft tot gevolg dat de vals alarm ratio op kan lopen tot wel 80%, in plaats van de normaliter geaccepteerde 5%, waardoor niet meer te bepalen is of we te maken hebben met een werkelijk verschil of niet. Echter, door analysemethoden te gebruiken die rekening houden met de afhankelijkheid in de data, kunnen er wel betrouwbare conclusies verbonden worden aan dergelijk onderzoek. Uit 314 onderzoeksartikelen uit vijf gerenommeerde tijdschriften (Nature, Science, Neuron, Nature Neuroscience en Cell) bleek dat de helft van de papers dit type afhankelijke data bevatte en in geen van de papers statistisch rekening werd gehouden met deze afhankelijkheid (E. Aarts et al., Nature Neuroscience, 2014). Dit laat zien dat dit type afhankelijke data vaak voorkomt, en dat de gebruikte statistische methodes duidelijk niet zijn meegegroeid met de eisen van de complexe data.

Geraffineerde experimenten dienen gecombineerd te worden met een goede methodologische basis en passende statistiek.

Geraffineerde experimenten dienen gecombineerd te worden met een goede methodologische basis en passende statistiek. Dat moge duidelijk zijn. Maar wat is er nodig om dit te verwezenlijken? Onderzoekers moeten minstens een goede basiskennis hebben van statistiek, zodat mogelijke methodologische en/of statistische problemen worden herkend. Daarnaast zou samenwerking tussen laboratoria voor het vergroten van het aantal metingen, nauwe samenwerking met een statisticus, en wetenschappers belonen voor methodologische soliditeit en herhaalbaarheid van hun onderzoeken stappen in de goede richting kunnen zijn. Verschillende initiatieven afkomstig vanuit binnen de wetenschap maken zich al hard voor een kanteling in de wetenschap, zoals Science in Transition, waarbij kwaliteit weer prioriteit nummer één is. Want ondermaatse wetenschappelijke methodiek schaadt niet alleen de reputatie van het vakgebied, maar bovenal doet het de waarde van waarheidsvinding teniet. Tijd om het tij te keren, voordat het oerwoud van wetenschappelijke literatuur gelijk wordt aan Multatuli’s uitspraak: “Misschien is niets geheel waar, en zelfs dat niet.”

Gerelateerde artikelen
Reacties
Nog geen reacties.

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Verplichte velden zijn gemarkeerd met *

Naar boven