De P-waarde en de jacht op significante resultaten

statistiek

P-waarden, de gouden standaard van statistische analyses, blijken niet zo betrouwbaar en objectief als wetenschappers denken. Dat stellen onderzoekers in het blad Nature. Tijd voor een alternatief?

De p-waarde is de kans dat er een effect gemeten is dat in werkelijkheid niet bestaat. Iedereen die een basiscursus statistiek gevolgd heeft, weet dat een p-waarde van minder dan 0,05 op een significant resultaat wijst. Heel wat wetenschappers springen dan ook vaak een gat in de lucht wanneer hun statistische analyse een belangrijk significant resultaat oplevert. Dit gebeurde in 2010 ook bij Matt Moyl (Universiteit van Virginia, Charlottesville). Zijn onderzoek naar politieke psychologie leverde een zeer significante uitkomst op, met een p-waarde kleiner dan 0.01. Maar een replicatie van het onderzoek met extra data leidde tot een p-waarde van 0.59, verre van significant dus. Uiteindelijk bleek dat het probleem niet in de data of de analyse zat, maar in het merkwaardige gedrag van de p-waarde. Deze blijkt dus niet zo betrouwbaar en objectief als men dacht.

Oorsprong
Waar komt de p-waarde nu eigenlijk vandaan? Het concept werd in 1920 door statisticus Ronald Fisher geïntroduceerd. Hij gebruikte de p-waarde enkel om na te gaan of het bewijs voor een bepaalde stelling significant genoeg was om er dieper op in te gaan. Het was zeker geen definitief antwoord op een vraag. De rivalen van Fisher, de Pool Jerzy Neyman en de Brit Egon Pearson, waren allesbehalve overtuigd van Fisher’s p-waarde en ontwikkelden een alternatief systeem om zo objectief mogelijk beslissingen te nemen. Later werden deze twee systemen samengevoegd door andere auteurs. De p-waarde van Fisher kwam op die manier terecht in het objectieve systeem van Neyman en Pearson. Op dat moment werd ook de p-waarde van 0.05 vastgelegd als significant. “Maar de p-waarde had nooit op deze manier gebruikt mogen worden,” zucht Steven Goodman (Stanford University).

Gevaren
Het komt jammer genoeg vaak voor dat wetenschappers teveel belang hechten aan p-waarden. Vorig jaar, bijvoorbeeld, meldde een studie in Nature dat koppels die elkaar online ontmoeten minder kans hebben om te scheiden (p < 0.002) en gelukkiger waren in hun huwelijk (p < 0.001). Dit klinkt misschien indrukwekkend, maar de effecten waren zeer klein. De scheidingskansen lagen zeer dicht bij elkaar voor beide groepen (7.67% en 5.96%). En op de gelukschaal van zeven was het verschil ook miniem (5.48 en 5.64). “Deze studie geeft aan dat wetenschappers hier de verkeerde vraag stelden," zegt Geoff Cumming (La Trobe University in Melbourne). “Men moest zich afvragen hoe groot het effect is, niet of er een effect is.”

“Men moest zich afvragen hoe groot het effect is, niet of er een effect is”

P-hacking
Eén van de gevolgen van de centrale rol van de p-waarde in de wetenschap is het zogenaamde p-hacking. Wetenschappers proberen diverse analyses uit op zoek naar significante resultaten. Soms worden zelfs bepaalde assumpties versoepeld om een p-waarde onder 0.05 te doen dalen. In een recente analyse van diverse psychologiepapers vond Uri Simonsohn (University of Pennsylvania) dat heel wat p-waarden clusterden rond 0.05. Dit wijst mogelijk op het vissen naar een significant resultaat. “P-hacking leidt soms ook tot het publiceren van bevindingen die gewoonweg niet waar zijn,” stelt Goodman.

Vele statistici pleitten voor het vervangen van de p-waarde door andere technieken, zoals bijvoorbeeld Bayesiaanse statistiek. Goodman geeft aan dat wetenschappers vooral bewuster moeten worden van de limieten van de huidige statistiek: “De cijfers zijn het startpunt van een wetenschappelijke discussie, niet het eindpunt.”

Jente Ottenburghs (1988) heeft sinds zijn Master Evolutie en Gedragsbiologie aan de Universiteit van Antwerpen een brede interesse voor evolutionaire biologie. Sinds mei 2012 werkt hij als PhD-student bij de Resource Ecology Group aan de Universiteit van Wageningen. Meer informatie over zijn onderzoek vindt u hier. En neem ook eens een kijkje op zijn blog waarop – hoe kan het ook anders – de evolutie eveneens centraal staat.

Bronmateriaal

Nuzzo, R. (2014) Statistical Errors. Nature 506: 150-152.
De foto bovenaan dit artikel is gemaakt door sjur (via Freeimages.com).

Fout gevonden?

Voor jou geselecteerd