Wetenschap is een competitieve bezigheid. Dit volgt niet uit het doel, maar uit ego en financiering. Hoewel waarheidsvinding het doel is, wordt voor het toekennen van onderzoeksgeld (en daarmee het salaris van de onderzoeker) gekeken naar zijn of haar wetenschappelijke prestaties. Dit wordt bepaald aan de hand van het aantal (top)publicaties. Als gevolg hiervan staat er een druk op wetenschappers om veel en impactvol te publiceren. De extreme gevolgen hiervan zijn recent te zien geweest in zaken van wetenschappelijke fraude, maar ook wetenschappers die oprecht de waarheid zoeken worden hierdoor potentieel beïnvloed. In dit stuk zal ik ingaan op een fenomeen dat dit probleem verergert: de bemoeilijking van het aantonen van afwezigheid.
Een belangrijke vertekening in de wetenschap komt door de methode van statistisch toetsen die bekend staat als 'klassieke' of 'frequentistische' statistiek. Het succes van een onderzoek staat of valt namelijk met de statistische significantie van het gevonden effect. Deze significantie zegt niets over de grootte, maar enkel iets over de betrouwbaarheid van een bevinding. In de meeste vakgebieden wordt een effect significant bevonden, wanneer de kans dat het effect op toeval berust (gemeten wordt terwijl het niet bestaat) 5% of kleiner is. Is dat zo, dan wordt de nulhypothese (A en B zijn gelijk) verworpen (conclusie: A verschilt van B). Zo niet, dan wordt de nulhypothese niet verworpen (conclusie: A verschilt niet aantoonbaar van B). Wat ontbreekt is de mogelijkheid om aan te tonen dat A en B aan elkaar gelijk zijn, oftewel dat een effect niet bestaat.
Wat we nodig hebben is de wetenschap van het afwezige.
Een ander belangrijk gevolg is dat onderzoek zonder significant effect meestal niet gepubliceerd wordt (dit is nadelig voor de onderzoeker, en het leidt tot het zogeheten 'bureaulade probleem', zie stuk Sicco de Knecht). Een alternatief is dat het onderzoek wordt aangepast totdat er wel een significant effect is. De manier waarop dit gebeurt kan variëren van het vrij onschuldige 'meer data verzamelen' of 'uitbijters verwijderen' (wat beiden alleen helpt als het onderliggende effect echt bestaat), tot het frauduleuze 'data masseren' of 'aanpassen van de hypothese'.
Een fictief voorbeeld: sportpsychologen onderzoeken de samenhang tussen sportpatroon en gewichtsontwikkeling. Ze vinden onverwacht geen significante correlatie. Omdat ze veel data hebben verzameld, kijken ze ook maar naar correlaties tussen sportpatroon en vijf persoonlijkheidskenmerken, inkomen, en leeftijd. Er blijkt een bijna significante correlatie te zijn tussen sportpatroon en inkomen, die significant wordt als de vrouwelijke deelnemers buiten beschouwing worden gelaten. De onderzoekers zoeken naar literatuur over geslachtseffecten in de sport, en vormen achteraf een "hypothese" die zogenaamd in het onderzoek getest werd. Door het grote aantal analyses is de kans dat een gevonden effect op toeval berust geen 5% meer, maar ongeveer 50% geworden. Dit soort exploratief onderzoek is een prima manier om ideeën te krijgen voor toekomstige onderzoeksvragen, maar het stelt de onderzoekers niet in staat om een geldige conclusie te trekken.
Als wetenschappers enerzijds de nulhypothese niet kunnen bevestigen, en anderzijds niet-significante effecten niet kunnen publiceren, ontstaat er zowel een gat als een bias in de literatuur (voor uitleg: zie Sicco's stuk). In de zoektocht naar de juiste verklaring is het uitsluiten van onjuiste verklaringen ook een belangrijk proces. Daarom is het van groot belang om ook dat onderzoek te publiceren waarin effecten niet worden aangetoond. Om deze studies informatief te maken is het zaak niet alleen aan te tonen dat een effect niet significant aanwezig is, maar ook aan te geven hoe sterk het bewijs is dat het effect gewoon niet bestaat. Wat we nodig hebben is de wetenschap van het afwezige.
Wat ontbreekt is de mogelijkheid om aan te tonen dat A en B aan elkaar gelijk zijn, oftewel dat een effect niet bestaat.
Hoe laten we dan zien dat een effect er niet is? Oftewel: hoe bewijzen we een nul-effect? Hiervoor zijn alternatieve statistische methoden ontwikkeld, die helaas nog zeer weinig worden gebruikt in de wetenschap. Deze methoden maken veelal gebruik van Bayesiaanse statistiek. Zonder op de wiskunde in te gaan komt dit neer op het volgende: als je weet wat de kans is op observatie A bij de aanwezigheid van effect B, en weet wat de kans is op observatie A bij de afwezigheid van effect B, dan kun je uitrekenen wat de kans is op effect B als je A niet observeert, en dus ook de kans dat effect B er niet is als je A niet observeert. Door de juiste toepassing van deze rekenregels is het mogelijk om aan te tonen hoe sterk het bewijs is dat twee reeksen van metingen aan elkaar gelijk zijn. Dit is niet alleen nuttig wanneer een effect onverwacht niet wordt gevonden, maar ook wanneer onderzoekers juist als hypothese hebben dat twee condities aan elkaar gelijk zijn.
Hierboven hebben we gezien hoe niet-significante resultaten kunnen leiden tot geen, of tot onjuiste publicaties. In mijn eigen onderzoek heb ik recent gekozen voor de derde weg: het publiceren van de afwezigheid van een verschil. Het was een langdurig en prijzig project, en er lag druk om een effect te vinden. Het was gemakkelijk geweest om ergens in onze grote verzameling hersen-, gedrags- en persoonlijkheidsdata een significant effect te vinden, en vervolgens ons verhaal daaromheen te draaien. Een dergelijk artikel had een indrukwekkender publicatie opgeleverd en was carrièretechnisch gunstiger geweest. In plaats daarvan hebben we met Bayesiaanse statistiek laten zien dat er geen effect is: de integere uitkomst van het onderzoek. Ik wil er voor pleiten dat meer onderzoekers deze route kiezen, en hun resultaat ook publiceren wanneer het hun hypothese tegenspreekt, en aantoont dat er geen effect is.
Pas als de wetenschap de waarde van het nuleffect in gaat zien wordt de geloofwaardigheid van de gevonden resultaten groter.
Uitbijter is blijkbaar het Nederlandse woord voor outlier (een datapunt dat zo ver buiten de verdeling ligt dat het er waarschijnlijk geen deel van uitmaakt).
Ik ken in mijn vakgebied niemand die het woord uitbijter zou gebruiken (uit een steekproef van drie psychologen kenden er zelfs 0 deze term). Desondanks is de redactie van mening dat het woord outlier niet in een Nederlandse tekst thuishoort.
Dat kom je natuurlijk wel vaker tegen. In het lab waar ik stage liep in het vakgebied van de moleculaire biologie spraken we ook zonder problemen over diluties (verdunningen) van antilichamen en magnificatie (vergroting) van het beeld - jargon.
Laten we maar niet beginnen met de discussie wat een uitbijter eigenlijk precies is, en wanneer je dit dient te bepalen.
Uitbijter: Samenvoeging van twee functietitels gebruikt in 1-mans horecazaken. De uitbater is tevens de uitsmijter danwel andersom.
Jasper,
Ik heb het stuk gelezen en ook het stuk van Sicco en mij wordt niet helemaal duidelijk waarom een niet significant resultaat relevant is. Natuurlijk, als je een hele voor de hand liggende vraag stelt, met een bepaalde nieuwe techniek en dit het antwoord is NEIN, dan heeft dat waarde.
Maar stellen dat per definitie niet significante resultaten relevant zijn gaat mij wat ver. Als ik mij afvraag of mensen die bananen eten gemiddeld beter zijn in het oplossen van wiskundige stellingen dan mensen die geen bananen eten en ik vind geen verschil, wat is daar dan de relevantie van? Ik heb op dat moment geen idee waarom er geen verschil is, welke factoren ik wel moet aangrijpen of via welk mechanisme ´goed zijn in wiskunde´ uberhaupt wel werkt.
Natuurlijk begrijp ik dat ook negatieve resultaten belangrijk kunnen, let op kunnen, zijn, maar die worden wel degelijk gepubliceerd. Je geeft zelf een voorbeeld. Het heeft alleen, begrijpelijkerwijs, veel minder impact.
Snap ik t niet, of zijn we het gewoon lekker oneens?
Kan ik deze reactie liken?
Arjan,
Om met je laatste vraag te beginnen: volgens mij snap je het niet. Er zijn twee redenen waarom negatieve resultaten gepubliceerd zouden moeten worden.
Ten eerste: omdat de afwezigheid van een resultaat relevant kan zijn. Het gaat er hierbij om dat een onderzoek nieuwe informatie toevoegt. In feite gaat het hier weer om Bayesiaans redeneren. Wanneer er a priori geen reden is om een verschil te verwachten (zoals bij je bananenvoorbeeld) en je vindt dat ook niet, dan verandert dit weinig aan ons beeld van de wereld, en is er dus weinig noemenswaardigs aan.
Is er wel een reële reden om een effect te verwachten, en het is afwezig, dan kan dit zeker relevant zijn. Echter is het dan wel nodig niet alleen te 'falen de nulhypothese te verwerpen', maar hem ook te ondersteunen.
In mijn onderzoek heb ik inderdaad een relevant nulresultaat gepubliceerd. Hoewel dit inderdaad af en toe gebeurt, is de keuze om je nulresultaat te publiceren uitzonderlijk, en dat is een probleem. Dit probleem is namelijk de tweede reden om nulresultaten te publiceren:
Als nulresultaten in 'de bureaula' verdwijnen biedt het hanteren van een alpha-waarde geen bescherming meer tegen toevalsbevindingen, omdat onderzoeken (door dezelfde of door steeds nieuwe onderzoekers) herhaald worden totdat ze een significant verschil aantonen. Zo wordt op den duur ieder (bestaand of onbestaand) effect aangetoond.
Door een specifiek uitgezochte subset van je onderzoek niet te publiceren houd je een vertekend deel over: de publication bias.
Ter illustratie: zie deze comic, en bedenk je dan dat plaatje 2 en 4-23 niet gepubliceerd zouden worden: http://xkcd.com/882/
Dat is toch echt iets anders, Sicco. Verdunning en vergroting zijn bij je collega's (en bij anderen) wel bekende termen. Het is te verwachten dat leken de term verdunning eerder zullen kennen dan dilutie, dus is het beter de term verdunning te gebruiken. Dilutie en magnificatie zijn in jouw voorbeeld inderdaad jargon.
Uitbijter is daarentegen een woord dat bij zowel leken als vakgenoten onbekend is. Als iemand het begrip bij een van de twee termen kent, is dat bij de Engelse, en niet bij de Nederlandse. Er is dus geen goede reden om te kiezen voor het woord uitbijter, behalve wanneer je uit purisme geen Engelse woorden in een Nederlandse tekst wilt zien.
Voor de kenner: een relevante publicatie over het probleem van flexibele analysemethoden:
http://www.frontiersin.org/brain_imaging_methods/10.3389/fnins.2012.00149/abstract?utm_source=newsletter&utm_medium=email&utm_campaign=Neuroscience-w41-2012
Zie ook
http://xkcd.com/1132/