Eenzijdige toetsing is een didactisch instrument dat wordt gebruikt om studenten te leren om met bijvoorbeeld de t-verdeling te werken. Eenzijdige toetsing kan in de praktijk wel voorkomen, maar bijna nooit in de psychologie. De reden is als volgt.
Als je een p-waarde uitrekent, doe je dat altijd onder de nul-hypothese. Als voorbeeld nemen we een t-toets: we vergelijken optimisme voor studenten aan de OU en docenten aan de OU. We doen natuurlijk een power-analyse voordat we data verzamelen. We verwachten een middelgrote effect-size van Cohen's d = .5, dus we hebben 128 deelnemers nodig om 80% power te hebben. We meten dus optimisme bij 64 studenten en 64 docenten. We vinden de volgende gemiddelden:
Mean 1 (Docent) = -0.21, sd = 0.96, n = 64
Mean 2 (Student)= 0.24, sd = 1.03, n = 64
Optimisme is in onze steekproef hoger voor studenten dan voor docenten. Maar, onze steekproef is niet interessant: die is immers deels tot stand gekomen door steekproeftoeval. De gemiddelden in onze steekproef zullen nooit precies hetzelfde zijn (als je maar op genoeg decimalen kijkt), juist door dat steekproeftoeval. We moeten dus weten of dit verschil van .45 in optimisme door het steekproeftoeval komt, of doordat studenten in de populatie nu eenmaal optimistischer zijn. De vraag is dus hoe groot ons verschil is in vergelijking met het steekproeftoeval.
Gelukkig kunnen we daar een indruk van krijgen, door de steekproevenverdeling op te stellen. Hier zijn de steekproefscores van onze studenten:

Zoals je ziet zijn ze vrij normaal verdeeld. Als we een random student uit onze steekproef kiezen, komt die student uit deze verdeling. De kans dat we de student kiezen die -2.5 scoort is vrij laag (1/64ste), net als de kans dat we een van de twee studenten die boven de 2 scoren, kiezen.
Elk van deze 64 studenten is natuurlijk weer random gekozen uit de populatieverdeling. We weten alleen niet hoe die populatieverdeling er uitziet, anders wist we het gemiddelde uit de populatie ook. Onze enige manier om de populatie te 'zien' is door de 'lens' van aselecte (random) steekproeven, en die heeft dat probleem dat steekproeftoeval altijd een rol speelt. Daarom kiezen we niet maar 1 student, maar nemen we een steekproef van meerdere studenten. Hoe meer studenten we kiezen, hoe kleiner de rol van steekproeftoeval wordt (met als extreem voorbeeld het kiezen van net zoveel studenten als er op dat moment in de populatie zitten).
Daarom werken we met gemiddelden. Het gemiddelde van 64 studenten wordt veel minder beinvloed door toeval dan het gemiddelde van 20 studenten. En het mooie is: dat gemiddelde in onze steekproef (0.24 voor onze studenten) komt ook weer uit een verdeling. Niet uit de populatieverdeling natuurlijk, want daar zitten alleen individuele studenten in; maar uit de steekproevenverdeling voor het gemiddelde. Voor onze studenten ziet die er zo uit:

Dit is de verdeling die je krijgt als je oneindig veel steekproeven zou nemen van 64 studenten, tenminste, er vanuit gaande dat het gemiddelde in de populatie het gemiddelde uit onze steekproef is. De standaarddeviatie van deze verdeling heet de standaardfout. Deze verdeling is erg handig, want hiermee kunnen we uitrekenen hoe groot de kans is op een gegeven gemiddelde, net zoals we toenet konden uitrekenen wat de kans is op een student met een gegeven score als we die uit onze steekproef kiezen. De docenten hebben ook een verdeling van steekproefscores en een steekproevenverdeling:

Het probleem is dat die steekproevenverdelingen natuurlijk gebaseerd zijn op onze steekproef: daarom hebben ze precies datzelfde gemiddelde. We weten immers niet wat de gemiddelden van de studenten en docenten in de populatie zijn . . . Bovendien zijn we eigenlijk niet geinteresseerd in deze twee verdelingen: we willen eigenlijk de steekproevenverdeling zien voor het verschil tussen de twee gemiddelden.
Gelukkig weten we een aantal dingen:
-
Omdat de beide steekproevenverdelingen (van studenten en docenten) ongeveer normaal verdeeld zijn, is de steekproevenverdeling van het verschil tussen de gemiddelden ook ongeveer normaal verdeeld. Om precies te zijn heeft die verdeling ongeveer de vorm van de t-verdeling voor 128-2 vrijheidsgraden.
-
De spreiding van deze steekproevenverdeling is gelijk aan de standaardfout voor het verschil tussen deze twee gemiddelden, die we uit kunnen rekenen en die 0.174 is.
Alleen weten we niet wat het gemiddelde is van deze steekproevenverdeling . . . Als we dat zouden weten, konden we uitrekenen hoe groot de kans is op het verschil tussen gemiddelden dat wij hebben gevonden (-.45). En de oplossing is . . .
<tromgeroffel>
(En nu komt de crux, en de reden dat je in de psychologie nooit eenzijdig kunt toetsen:)
De oplossing is dat we een aanname doen over het gemiddelde in de populatie! En die aanname is de nulhypothese. We gaan dus uitrekenen hoe groot de kans is op ons gemiddelde (-.45), als de nulhypothese waar zou zijn, en dat gemiddelde dus random gekozen is uit een steekproevenverdeling die verdeeld is als t, met df=126, met als gemiddelde 0, en als standaarddeviatie onze standaardfout van 0.174.
Als we ons verschil tussen gemiddelden (-.45) delen door onze standaardfout (0.174) krijgen we onze t-waarde van -2.59. Als we dan software gebruiken om onze steekproevenverdeling, onder aanname dat de nulhypothese klopt, te construeren, zien we het volgende:

We zien daar dat de kans op een t-waarde die lager is dan -2.59 gelijk is aan .005. Omdat de t-verdeling symmetrisch is, is de kans op een t-waarde die hoger is dan 2.59 ook .005. De kans op een t-waarde die extremer is dan -2.59 is dus .01.
Zie je de spreiding in die steekproevenverdeling? Die spreiding komt alleen maar door steekproeftoeval. Dat is immers de aanname: deze verdeling is de verdeling van gemiddelden die je kunt vinden met een steekproef van n=128, aangenomen dat de nulhypothese klopt. De nulhypothese stelt dat het gemiddelde in de populatie 0 is, en dat alle afwijkingen die je vind dus het gevolg zijn van steekproeftoeval.
En dat steekproeftoeval kan zowel positief als negatief zijn.
Omdat je altijd toetst onder aanname van de nulhypothese, mag je dus alleen eenzijdig toetsen als steekproeftoeval naar één van beide kanten onmogelijk is; als je nooit toevallig een verschil de andere kant op kunt vinden.
Het is dus een misverstand dat je met een gerichte hypothese eenzijdig mag toetsen!!! Je mag nooit toetsen onder aanname dat de hypothese die je toetst, waar is. En die hypothese stelt dat een verschil een bepaalde kant op zal gaan, maar de nulhypothese stelt dat niet. Als je eenzijdig toetst op basis van een gerichte hypothese is je toetsing dus al verstoord: je toetst dan onder aanname dat je alternatieve hypothese klopt. En dat mag natuurlijk niet.
Je toetst altijd onder aanname van de nulhypothese, die stelt dat er geen verschil is, en dat een eventueel verschil dat je vindt het gevolg is van steekproeftoeval, en dat kan altijd beide kanten op gaan.
Je mag alleen eenzijdig toetsen als steekproeftoeval maar één kant op kan gaan. Als je bijvoorbeeld meet of er in 10 jaar tijd significant meer bomen zijn gegroeid in een woestijn waar nul bomen staan als je start (steekproeftoeval kan immers nooit voor een negatief aantal bomen zorgen). Zoals je merkt is het lastig om voorbeelden te bedenken waar 'negatief steekproeftoeval' of 'positief steekproeftoeval' onmogelijk is . . .
Daarom mag je in de psychologie dus NOOIT eenzijdig toetsen (ok, bijna nooit).
Dat eenzijdige toetsing in het onderwijs nog vaak wordt gebruikt is omdat het kan helpen bij het uitleggen van steekproevenverdelingen. Bij de Open Universiteit zijn we overigens, juist omdat het verwarrend kan werken, eenzijdige toetsing uit het curriculum aan het verwijderen; dus het zou heel handig zijn als je de eerste en tweede examinator kunt mailen om even aan te geven waar je deze verwijzing vond, zodat ze die kunnen verwijderen.
Mocht je zelf met dit voorbeeld willen spelen, hier is de R-code om dit te doen (zoek even op 'R' in deze site om te zien hoe je R kunt installeren; het is gratis):
### Stel de 'seed' in om de random getallen te kunnen reproduceren
set.seed(123456);
### Genereer random, normaal verdeelde, data voor 128 mensen
dat <- data.frame(optimisme = rnorm(128),
group = factor(c(rep("Student", 64),
rep("Docent", 64))));
### Studenten zijn natuurlijk wat optimistischer, docenten
### wat minder optimistisch
dat\$optimisme <- ifelse(dat\$group == 'Student',
dat\$optimisme + .2,
dat\$optimisme - .1);
### Bekijk de data
summary(dat);
### Doe een t-toets (eerst 'userfriendlyscience' laden; en
### als dat niet lukt, installeer het dan eerst.
if (!require('userfriendlyscience')) {
install.packages('userfriendlyscience', dependencies=TRUE);
require('userfriendlyscience');
}
meanDiff(dat\$optimism ~ dat\$group);
### Plot de t-waarde (let wel: hiervoor is de nieuwste versie
### van 'didacticPlot' nodig, in userfriendlyscience 0.4-0
didacticPlot(-2.59, 't', 126);
### Bekijk de verdeling van de steekproefscores en de steekproevenverdeling voor de studenten en docenten:
normalityAssessment(dat[dat\$group=="Student", "optimisme"]);
normalityAssessment(dat[dat\$group=="Docent", "optimisme"]);