Flickr / Nic McPhee

Masseren, manipuleren, frauderen

Nog geen jaar na de ontmaskering van Stapel is er nu een tweede sociaalpsycholoog die zijn data zo masseerde dat er wordt gesproken van fraude. Een Amerikaanse, tot nu toe onbekende, peer trok eind vorig jaar de resultaten van de Vlaming Dirk Smeesters in twijfel. Een onderzoekscommissie onderzocht Smeesters en concludeerde fraude; einde wetenschappelijke carrière.

Datamassage in de sociaal-psychologie aan de orde van de dag.

De eerste zin van dit artikel is voor u misschien op het eerste oog een wat vreemde. Het staat er op deze manier, omdat datamassage, datamanipulatie en fraude in de wetenschappelijke praktijk geen synoniemen zijn. Als we de wetten van de wetenschap nauwkeurig lezen, dan zien we dat data nimmer gemanipuleerd dient te worden. Dit is ook logisch, immers gaat het om vinden van ‘natuurwetten’ of anderszins mechanismes die zich voor doen in de ‘echte wereld’. Echter, de praktijk is anders, en datamassage is zeker in een ‘zachte’ wetenschap als de sociaal-psychologie aan de orde van de dag. Het is te vergelijken met te hard rijden in de auto. Dat mag ook niet, maar het gebeurt. Smeesters reed te hard – veel te hard, en werd gepakt.

Psychologiestudenten leren tijdens hun studie de data te masseren. Wat mij – toen ik psychologie studeerde - het meest opviel is dat wij leerden om uitbijters [1] te herkennen én hoe ze te uit de dataset te halen. Een uitbijter kan namelijk een gemiddelde of een ander effect zodanig beïnvloeden dat de verwachtingen niet uitkomen, terwijl zonder de uitbijter wel het verwachte resultaat wordt getoond. Deze datamassage is voor ‘zachte’ wetenschappers makkelijker, omdat de effecten minder eenduidig zijn, en er makkelijker alternatieve verklaringen kunnen worden gevonden die de uitbijter uitleggen en dus legitimeren deze uitbijter te verwijderen.

Kortom, in de praktijk is er in veel onderzoeken sprake van datamassage. Dit kan niet anders dan gevoed worden door het huidige wetenschappelijke klimaat; zoals geldstromen en de H-index. Wetenschappers moeten publiceren, en artikelen met ‘slechte’ – in de zin van weinig power en overtuigingskracht – resultaten worden niet gepubliceerd. Dit klimaat heeft duidelijk zijn negatieve uitwerking op de kwaliteit en betrouwbaarheid van wetenschap, aangetoond door extreme gevallen als Stapel en Smeesters.

Datamassage is onvermijdelijk en kan leiden tot inzichten die anders niet worden bereikt.

Maar datamassage is niet erg volgens mij. Het is namelijk onvermijdelijk en kan leiden tot inzichten die anders niet worden bereikt. Zeker de sociale psychologie, die nooit keiharde natuurwetten kan vinden zoals die in de natuurwetenschappen worden gevonden, heeft baat bij datamassage, omdat zij uitspraken doet over groepen in plaats van over personen. Het gaat om het gemiddelde, om het over-de-gehele-linie, om een door-de-bank-genomen. Deze uitspraken zijn nooit van toepassing op alle individuen van de groep. Niet alle werkenden zijn productiever bij een chaotische werkplek – er zijn natuurlijk altijd uitzonderingen – maar volgens Smeesters de meesten wel. Dit blijkt inmiddels gefraudeerd, maar u begrijpt mijn voorbeeld.

De Sociale Psychologie kan niet anders dan met datamassage en geeft ons in deze onvolkomenheid wel kennis en inzichten. Zo lang iedereen zich bewust is van dit soort mechanismes in de wetenschap is datamassage niet erg. Het kan immers leiden tot kennis, ook al is deze kennis niet zo perfect als Einsteins relativiteitsvergelijking. Zachte wetenschappers balanceren , al dan niet terecht [2], op een dunner koord dan harde wetenschappers en daarom moeten zijn nog consciëntieuzer omgaan met hun vak. Voorzichtigheid zou troef moeten zijn in datamassage.

Smeesters wilde wel harde data, was bij zijn massage te onvoorzichtig en is gigantisch uit de bocht gevlogen. Erg gevaarlijk, want hij zet hiermee de reputatie van zijn vakgebied enorm op het spel. De ongeloofwaardigheids- en onbetrouwheidsgevoelens die worden flink aangewakkerd door fraudeurs als Smeesters kunnen ook op lange termijn grote consequenties hebben voor het vakgebied. Ik vraag me ernstig af of het tij nog te keren is.



[1] Een uitbijter is een van de data die relatief zo ver van de overige data ligt, dat verwacht wordt dat de opdracht verkeerd is begrepen, dat er bijeffecten zijn opgetreden, etc, zodanig dat er een grote afwijking is ontstaan. Statistische analyses kunnen heftig worden beïnvloed door een uitbijter. Zo is de gemiddelde leeftijd bij kleuterklas heel verschillend wanneer men wel of niet de leraar meeneemt in de berekening.

[2] Hier kom ik na de zomer op terug.

Gerelateerde artikelen
Reacties
6 Reacties
  • Ik hoop dat dit artikel een geintje is... ? Ik ben zelf dan beta wetenschapper, maar zo te horen kan de hele gammawetenschap van de afgelopen tijd zo de prullenbak in ?

  • Jasper Winkel,

    Het probleem met bovenstaand artikel is dat outliers correction en datamassage verschillende dingen zijn. Outliers zijn afwijkende metingen waarvan onpartijdig aan te tonen is dat dezen niet in de verdeling van verzamelde metingen thuishoren.
    Het verwijderen van deze outliers is correcte statistische methode, en is niet afhankelijk van welk vakgebied dan ook.

    Datamassage zoals die van Smeesters betreft het selectief verwijderen van delen van de data om deze mooier te doen lijken dan hij is. Dit betreft wel degelijk een onjuiste analyse, en is een geval van wetenschapsfraude.

    Door deze verschillende gebruiken samen te vangen onder de noemer 'datamassage' en vervolgens te zeggen dat zachte wetenschap niet uitgevoerd kan zonder datamassage geeft Ko ons het idee dat experimentele psychologie niet op een juiste manier uitgevoerd kan worden.

    Dat is onjuist, en het veroordeelt ten onrechte een heel vakgebied. Iedere experimenteel psychologische vraag kan op een statistisch juiste manier beantwoordt worden: met outlier-correctie, en zonder datamassage.

  • Jasper Winkel,

    Defusie heeft helaas geen 'edit' of 'delete' knop, om grammaticafouten te verwijderen. Ik wil de lezer dan ook verzoeken een s uit de eerste, en een t uit de laatste zin van mijn reactie weg te denken.

  • Mark de Boer,

    Ik kan alleen maar onderschrijven wat Jasper Winkel zegt.

    Data niet meenemen in je analyse omdat is aan te tonen dat de verkregen data foutief is iets heel anders dan correcte data niet meenemen in je analyse omdat je significantie anders wat mager uitvalt of zelfs helemaal afwezig is.

    De eerste methode is reproduceerbaar, de tweede niet. Veel van de onderzoeken die in eerste instantie argwaan opwekken zijn de onderzoeken die niet reproduceerbaar blijken te zijn. En dat geldt, net als Jasper zegt, voor alle vakgebieden.

  • Een hele geruststelling voor mij, maar ik vind het zorgelijk dat outlier correcties onder de datamassage wordt geschaard, ik heb van dat laatste toch een andere definitie. In sommige gevallen kun je idd niet om een outlier correctie heen, omdat je anders een effect niet kan aantonen. Dataverzamelen is noodzakelijk als je een onderzoek wilt uitvoeren, maar je moet gewoon erg goede argumenten hebben om data onder het tapijt te vegen als deze eenmaal is verzameld. Of ze nou niet in je straatje passen of dat het gewoon teveel data is, jammer dan. Betere proefopzet vooraf zou hebben geholpen. Als de data is verzameld, is ze er en gaat ze niet meer weg.

  • Om misverstanden te voorkomen: Met de zin "In sommige gevallen kun je idd niet om een outlier correctie heen, omdat je anders een effect niet kan aantonen" wil ik niet zeggen dat je pas achteraf als onderzoeker kan beslissen welke data je meeneemt, maar ik bedoel dat je als criticus een outlier correctie moet accepteren in een artikel om de genoemde reden. (Sorry, beetje kromme zin, gedeeltelijk uit auteursperspectief en gedeeltelijk uit referentperspectief. )

Geef een reactie

Het e-mailadres wordt niet gepubliceerd. Vereiste velden zijn gemarkeerd met *

Naar boven