Ik voeg graag toe aan het uitstekende antwoord van gjp; eigenlijk zegt een p-waarde niets anders dan hoe ‘zeldzaam’ een gegeven observatie (of extremer) is als de nulhypothese klopt. Om dit idee van nulhypothese meer ‘aards’ te maken geef ik vaak het volgende voorbeeld naar aanleiding van een documentaire die ik lang geleden op de Nederlandse televisie zag.
In deze documentaire werden kleine experimentjes getoond van wetenschappers waarin de intelligentie van dieren ‘bewezen’ werd. In een van de afleveringen werd de kijker geïntroduceerd aan de springspin. De theorie was dat webloze spinnen, zoals de springspinnen intelligente jagers zijn. Om deze theorie te toetsen ontwierpen de experts in de documentaire een experiment. Een springspin werd op een plateau gezet, en in de verte legden ze een vlieg op een ander plateau. De spin kon daar alleen komen via een van twee buizen die onder de plateaus lagen. Zodra de spin een buis kiest kan die niet meer zien of die buis tot de vlieg leidt. Als de spin gericht bij de vlieg wilt komen moet hij bij start, op het plateau, besluiten welke buis hem bij de spin brengt.
Het experiment werd tien keer uitgevoerd. Tien springspinnen mochten ieder eenmaal een poging wagen om bij de vlieg te komen. Wat bleek? Zeven van de tien keer kwam een spin bij de vlieg! De spin bleek zeer intelligent zijn weg naar de vlieg te plannen was de claim! Maar, is deze observatie (70% succesrate) bewijs voor intelligente planning?
Deze vraag, in hoeverre een serie gebeurtenissen onwaarschijnlijk toevallig is, is wat in de statistiek significantie wordt genoemd. Significantie is het punt waarop men afspreekt dat een kans op een willekeurig veronderstelde gebeurtenis ‘klein’ is.
Om te bepalen of zeven van de tien keer een vlieg bereiken een kleine kans is moet eerst bepaald worden hoe vaak de spin bij de vlieg zou zijn gekomen zonder enige planning, dus puur op toeval. Dit wordt de nulhypothese genoemd (de tegentheorie). De onderzoekers hadden dus eerst moeten afvragen: als spinnen niet intelligent hun pad plannen, hoevaak zouden we dan puur op toeval verwachten dat de spinnen bij de vlieg komen? Als het volkomen willekeurig is, dan is dit een kop-munt situatie, dus verwacht je dat de helft van de tijd een spin toevallig tegen de vlieg aanwandelt. In dit experiment zou onder de nulhypothese dus 5 van de 10 keer een vlieg gevangen moeten worden.
Is 7 van de 10 keer een zeldzame gebeurtenis, wanneer pure kans al 5 van de 10 keer oplevert? Hiertoe hebben we eerst een kansberekening nodig. Wat is de kans op 7 keer of meer een vlieg pakken, als het pure kans is en we 5 van de 10 keer hadden kunnen verwachten? 70% klinkt in ieder geval niet-willekeurig…
We hebben een afspraak nodig: als we een experiment gaan doen, hoe klein moet de kans op die gebeurtenis gegeven de nulhypothese zijn, om het ‘klein’ te mogen noemen? De algemene regel is dat een gebeurtenis die random verondersteld wordt slechts een kans van 5% heeft (dus enkel in 1 op de 20 gevallen zich zou moeten voordoen) dan mogen we van een ‘bijzondere’ (significante) gebeurtenis spreken, die het idee van ‘random’ ondermijnt. Dus dat we voorzichtig mogen verwerpen dat iets zich compleet willekeurig heeft voorgedaan.
Dus terug naar de spinnen: wat is de kans op 7/10 keer spinnen een vlieg te zien vangen als op basis van kans dit makkelijk in 5/10 gevallen zou kunnen gebeuren?
De kansrekening zal nu niet in detail besproken worden, en we zullen gelijk tot het antwoord komen; de kans dat 10 spinnen 7 keer hun goede weg vinden, gewoon puur op geluk (dus onder de nulhypothese) is 0.3438 (34,38%). Dus als we dit experiment eindeloos zouden herhalen, dan zouden we in meer dan een derde van alle experimenten deze uitkomst of extremer krijgen. Nu klinkt 7/10 ineens niet zo zeldzaam en bijzonder meer. Doordat 35% (p = .35) groter is dan 5% (p = .05) is dit een niet-significant verschil; de serie gebeurtenissen is niet voldoende zeldzaam om door ons als bijzonder gezien te worden.
Hoe vaak moeten 10 spinnen de vlieg pakken voordat de kans daarop zo klein is dat het de nulhypothese ondermijnt? Pas bij 9 van de 10 keer de vlieg vangen. De kans op 9/10 keer een vlieg vangen puur op geluk is .02148 (2,15%). De kans om puur op geluk 9 van de 10 keer een vlieg te vangen is kleiner dan wat we als een ‘kleine kans’ hadden afgesproken: kleiner dan 5%. Dus volgens deze afspraak mogen we stellen dat zo vaak een vlieg vangen de indruk wekt van intelligentie en niet van mazzel. Omdat p = .02 kleiner is dan p = .05 zou men hier dan spreken van een significant effect.