[ edit door Gjalt-Jorn ] Zie ook de uitleg in http://oupsy.nl/help/112/wanneer-is-mijn-data-te-scheef-niet-normaal-verdeeld!
Veel toetsen hebben als doel om op een gefundeerde manier een “uitspraak” te doen over een populatie op basis van een onderzoeksstaal (“sample”) dat men neemt uit de populatie. Meestal is het immers onmogelijk om iedereen te onderzoeken: je onderzoekt een beperkt aantal gevallen, en op basis van de meetgegevens zou je graag een uitspraak doen over de hele populatie (extrapoleren dus). De kern van die “uitspraken” is meestal “Mogen we op basis van de resultaten de nulhypothese redelijkerwijs verwerpen of niet?“ Uit onze toetsen komt steevast een p-waarde. De p-waarde zegt ons of we de uitspraak (verwerpen van nulhypothese) redelijkerwijze mogen doen of niet.
Het is belangrijk om te begrijpen wat de p-waarde betekent. Uitgaande van de veronderstelling dat de nulhypothese zou kloppen in de populatie, geeft de p-waarde de kans dat we de resultaten die we in onze meting kregen, zien in een willekeurige steekproef die op dezelfde manier werd samengesteld. Als bijvoorbeeld p = .30, dan zou je – veronderstellend dat de nulhypothese klopt in de totale populatie! - verwachten hetzelfde resultaat te krijgen in 30% van de experimenten waarin je uit dezelfde populatie een steekproef trekt zoals jij dat deed in jouw experiment. 30% acht men meestal veel te groot om redelijkerwijs te mogen aannemen dat de nulhypothese mag verworpen worden. 4% (p = .04) acht men voldoende klein om de nulhypothese te verwerpen. Wat men aanvaardbaar acht en wat niet hangt af van onderzoek tot onderzoek, maar dat is niet belangrijk in dit verhaal. Uiteraard wil dat ook zeggen dat je, zelfs als de nulhypothese zou waar zijn in de populatie, je bij p = .04 toch nog steeds in 1 experiment op 25 (= 1/25 = 0.04 = 4%) resultaten zoals de jouwe zou krijgen. Absoluut zeker ben je nooit, daarvoor zou je de hele populatie moeten meten…
Naargelang de aard van de nulhypothese gebruikt men een bepaalde toets. Drie vaak voorkomende uitspraken en de bijhorende testen draaien rond:
-
Er is (g)een significant verschil tussen de gemiddelden die we maten voor 1 of meer variabelen bij 1 of meer groepen (gepaarde/ongepaarde t-toets; ANOVA indien er meer dan 2 groepen zijn)
-
Er is (g)een samenhang tussen de waarden van twee variabelen (correlatie)
-
De waarde van een bepaalde variabele verklaart (niet) deze van een andere (regressie)
Veel toetsen hebben als voorwaarde dat de steekproevenverdeling van het verschil tussen de gemiddelden min of meer normaal verdeeld is de meetgegevens min of meer normaal verdeeld zijn. Uiteraard zijn meetgegevens nooit perfect normaal verdeeld. Het volstaat dat ze voldoende normaal verdeeld zijn opdat je met gerust gemoed bovenstaande (extrapolerende) uitspraken kunt doen op basis van de resulterende p-waardes. Als de meetgegevens echter onvoldoende normaal verdeeld zijn, dan produceren sommige toetsen een p waarde die niet zo vanzelfsprekend kan gebruikt worden. De berekening hangt namelijk af van de voorwaarde dat de gegevens min of meer normaal verdeeld zijn (als je geleerd wil doen: de “normality assumption”). Maar er is ook goed nieuws: bij de meeste toetsen (waaronder de t-toets en ANOVA – correlatieanalyse gebruikt achter de schermen ook een t toets) speelt die voorwaarde van normaliteit nauwelijks een rol als je ‘grote’ steekproeven neemt. Meestal – maar dat is eerder een afspraak, net als de Magische Grens van .05 of .01 bij de p waardes – beschouwt men 30 als ‘voldoende groot’ om, zelfs als de verdeling van de meetgegevens nogal stevig afwijkt van een ‘perfecte’ normaalverdeling, toch nog de resulterende p waarde te mogen gebruiken om een extrapolerende uitspraak over de populatie te doen.
Kortom, om op basis van kleine steekproeven (N < 30) toch met een gerust hart een uitspraak te mogen doen, zouden je meetgegevens best min of meer normaal verdeeld zijn. Zijn ze dat niet, dan probeer je het onderzoek best eerst eens te repliceren voor je je uitspraken uitbazuint :)