Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Waar kan ik meer informatie vinden over eenzijdige/tweezijdige toetsing.

In de lessen is verteld dat het eenzijdig toetsen van een hypothese theoretisch is en in de praktijk eigenljk niet voorkomt. Dit was tijdens de cursus KDA. Nu is de eerste casus binnen psychologisch experiment echter weer een onderzoek waarbij eenzijdig getoetst wordt (sportcasus).

 

Ik snap niet dat als er in  de praktijk eigenlijk geen eenzijdige toetsing plaatsvindt, we nu wel steeds met eenzijdige toetsing weren in de casussen. Ik zou graag beter willen begrijpen waarom eenzijdige toetsing in de praktijk niet veel voorkomt.
in Methodologie door (130 punten)

1 Antwoord

1 leuk 0 niet-leuks

Eenzijdige toetsing is een didactisch instrument dat wordt gebruikt om studenten te leren om met bijvoorbeeld de t-verdeling te werken. Eenzijdige toetsing kan in de praktijk wel voorkomen, maar bijna nooit in de psychologie. De reden is als volgt.

Als je een p-waarde uitrekent, doe je dat altijd onder de nul-hypothese. Als voorbeeld nemen we een t-toets: we vergelijken optimisme voor studenten aan de OU en docenten aan de OU. We doen natuurlijk een power-analyse voordat we data verzamelen. We verwachten een middelgrote effect-size van Cohen's d = .5, dus we hebben 128 deelnemers nodig om 80% power te hebben. We meten dus optimisme bij 64 studenten en 64 docenten. We vinden de volgende gemiddelden:

  Mean 1 (Docent) = -0.21, sd = 0.96, n = 64
  Mean 2 (Student)= 0.24, sd = 1.03, n = 64

Optimisme is in onze steekproef hoger voor studenten dan voor docenten. Maar, onze steekproef is niet interessant: die is immers deels tot stand gekomen door steekproeftoeval. De gemiddelden in onze steekproef zullen nooit precies hetzelfde zijn (als je maar op genoeg decimalen kijkt), juist door dat steekproeftoeval. We moeten dus weten of dit verschil van .45 in optimisme door het steekproeftoeval komt, of doordat studenten in de populatie nu eenmaal optimistischer zijn. De vraag is dus hoe groot ons verschil is in vergelijking met het steekproeftoeval.

Gelukkig kunnen we daar een indruk van krijgen, door de steekproevenverdeling op te stellen. Hier zijn de steekproefscores van onze studenten:

Zoals je ziet zijn ze vrij normaal verdeeld. Als we een random student uit onze steekproef kiezen, komt die student uit deze verdeling. De kans dat we de student kiezen die -2.5 scoort is vrij laag (1/64ste), net als de kans dat we een van de twee studenten die boven de 2 scoren, kiezen.

Elk van deze 64 studenten is natuurlijk weer random gekozen uit de populatieverdeling. We weten alleen niet hoe die populatieverdeling er uitziet, anders wist we het gemiddelde uit de populatie ook. Onze enige manier om de populatie te 'zien' is door de 'lens' van aselecte (random) steekproeven, en die heeft dat probleem dat steekproeftoeval altijd een rol speelt. Daarom kiezen we niet maar 1 student, maar nemen we een steekproef van meerdere studenten. Hoe meer studenten we kiezen, hoe kleiner de rol van steekproeftoeval wordt (met als extreem voorbeeld het kiezen van net zoveel studenten als er op dat moment in de populatie zitten).

Daarom werken we met gemiddelden. Het gemiddelde van 64 studenten wordt veel minder beinvloed door toeval dan het gemiddelde van 20 studenten. En het mooie is: dat gemiddelde in onze steekproef (0.24 voor onze studenten) komt ook weer uit een verdeling. Niet uit de populatieverdeling natuurlijk, want daar zitten alleen individuele studenten in; maar uit de steekproevenverdeling voor het gemiddelde. Voor onze studenten ziet die er zo uit:

Dit is de verdeling die je krijgt als je oneindig veel steekproeven zou nemen van 64 studenten, tenminste, er vanuit gaande dat het gemiddelde in de populatie het gemiddelde uit onze steekproef is. De standaarddeviatie van deze verdeling heet de standaardfout. Deze verdeling is erg handig, want hiermee kunnen we uitrekenen hoe groot de kans is op een gegeven gemiddelde, net zoals we toenet konden uitrekenen wat de kans is op een student met een gegeven score als we die uit onze steekproef kiezen. De docenten hebben ook een verdeling van steekproefscores en een steekproevenverdeling:

Het probleem is dat die steekproevenverdelingen natuurlijk gebaseerd zijn op onze steekproef: daarom hebben ze precies datzelfde gemiddelde. We weten immers niet wat de gemiddelden van de studenten en docenten in de populatie zijn . . . Bovendien zijn we eigenlijk niet geinteresseerd in deze twee verdelingen: we willen eigenlijk de steekproevenverdeling zien voor het verschil tussen de twee gemiddelden.

Gelukkig weten we een aantal dingen:

  • Omdat de beide steekproevenverdelingen (van studenten en docenten) ongeveer normaal verdeeld zijn, is de steekproevenverdeling van het verschil tussen de gemiddelden ook ongeveer normaal verdeeld. Om precies te zijn heeft die verdeling ongeveer de vorm van de t-verdeling voor 128-2 vrijheidsgraden.
  • De spreiding van deze steekproevenverdeling is gelijk aan de standaardfout voor het verschil tussen deze twee gemiddelden, die we uit kunnen rekenen en die 0.174 is.

Alleen weten we niet wat het gemiddelde is van deze steekproevenverdeling . . . Als we dat zouden weten, konden we uitrekenen hoe groot de kans is op het verschil tussen gemiddelden dat wij hebben gevonden (-.45). En de oplossing is . . .

<tromgeroffel>

(En nu komt de crux, en de reden dat je in de psychologie nooit eenzijdig kunt toetsen:)

De oplossing is dat we een aanname doen over het gemiddelde in de populatie! En die aanname is de nulhypothese. We gaan dus uitrekenen hoe groot de kans is op ons gemiddelde (-.45), als de nulhypothese waar zou zijn, en dat gemiddelde dus random gekozen is uit een steekproevenverdeling die verdeeld is als t, met df=126, met als gemiddelde 0, en als standaarddeviatie onze standaardfout van 0.174.

Als we ons verschil tussen gemiddelden (-.45) delen door onze standaardfout (0.174) krijgen we onze t-waarde van -2.59. Als we dan software gebruiken om onze steekproevenverdeling, onder aanname dat de nulhypothese klopt, te construeren, zien we het volgende:

We zien daar dat de kans op een t-waarde die lager is dan -2.59 gelijk is aan .005. Omdat de t-verdeling symmetrisch is, is de kans op een t-waarde die hoger is dan 2.59 ook .005. De kans op een t-waarde die extremer is dan -2.59 is dus .01.

Zie je de spreiding in die steekproevenverdeling? Die spreiding komt alleen maar door steekproeftoeval. Dat is immers de aanname: deze verdeling is de verdeling van gemiddelden die je kunt vinden met een steekproef van n=128, aangenomen dat de nulhypothese klopt. De nulhypothese stelt dat het gemiddelde in de populatie 0 is, en dat alle afwijkingen die je vind dus het gevolg zijn van steekproeftoeval.

En dat steekproeftoeval kan zowel positief als negatief zijn.

Omdat je altijd toetst onder aanname van de nulhypothese, mag je dus alleen eenzijdig toetsen als steekproeftoeval naar één van beide kanten onmogelijk is; als je nooit toevallig een verschil de andere kant op kunt vinden.

Het is dus een misverstand dat je met een gerichte hypothese eenzijdig mag toetsen!!! Je mag nooit toetsen onder aanname dat de hypothese die je toetst, waar is. En die hypothese stelt dat een verschil een bepaalde kant op zal gaan, maar de nulhypothese stelt dat niet. Als je eenzijdig toetst op basis van een gerichte hypothese is je toetsing dus al verstoord: je toetst dan onder aanname dat je alternatieve hypothese klopt. En dat mag natuurlijk niet.

Je toetst altijd onder aanname van de nulhypothese, die stelt dat er geen verschil is, en dat een eventueel verschil dat je vindt het gevolg is van steekproeftoeval, en dat kan altijd beide kanten op gaan.

Je mag alleen eenzijdig toetsen als steekproeftoeval maar één kant op kan gaan. Als je bijvoorbeeld meet of er in 10 jaar tijd significant meer bomen zijn gegroeid in een woestijn waar nul bomen staan als je start (steekproeftoeval kan immers nooit voor een negatief aantal bomen zorgen). Zoals je merkt is het lastig om voorbeelden te bedenken waar 'negatief steekproeftoeval' of 'positief steekproeftoeval' onmogelijk is . . .

Daarom mag je in de psychologie dus NOOIT eenzijdig toetsen (ok, bijna nooit).

Dat eenzijdige toetsing in het onderwijs nog vaak wordt gebruikt is omdat het kan helpen bij het uitleggen van steekproevenverdelingen. Bij de Open Universiteit zijn we overigens, juist omdat het verwarrend kan werken, eenzijdige toetsing uit het curriculum aan het verwijderen; dus het zou heel handig zijn als je de eerste en tweede examinator kunt mailen om even aan te geven waar je deze verwijzing vond, zodat ze die kunnen verwijderen.

Mocht je zelf met dit voorbeeld willen spelen, hier is de R-code om dit te doen (zoek even op 'R' in deze site om te zien hoe je R kunt installeren; het is gratis):

### Stel de 'seed' in om de random getallen te kunnen reproduceren

set.seed(123456);

### Genereer random, normaal verdeelde, data voor 128 mensen

dat <- data.frame(optimisme = rnorm(128),
                  group = factor(c(rep("Student", 64),
                                   rep("Docent", 64))));

### Studenten zijn natuurlijk wat optimistischer, docenten
### wat minder optimistisch

dat\$optimisme <- ifelse(dat\$group == 'Student',
                        dat\$optimisme + .2,
                        dat\$optimisme - .1);

### Bekijk de data

summary(dat);

### Doe een t-toets (eerst 'userfriendlyscience' laden; en
### als dat niet lukt, installeer het dan eerst.

if (!require('userfriendlyscience')) {
  install.packages('userfriendlyscience', dependencies=TRUE);
  require('userfriendlyscience');
}

meanDiff(dat\$optimism ~ dat\$group);

### Plot de t-waarde (let wel: hiervoor is de nieuwste versie
### van 'didacticPlot' nodig, in userfriendlyscience 0.4-0

didacticPlot(-2.59, 't', 126);

### Bekijk de verdeling van de steekproefscores en de steekproevenverdeling voor de studenten en docenten:

normalityAssessment(dat[dat\$group=="Student", "optimisme"]);

normalityAssessment(dat[dat\$group=="Docent", "optimisme"]);

door (77.8k punten)
bewerkt door
Ik vind bovenstaand stuk verhelderend en het komt mij intuïtief ook logisch over (ik begreep het eenzijdige toetsen niet zo goed...). In het antwoord wordt gesteld (in april 2015) dat het eenzijdig toetsen wordt verwijderd uit het curiculum van de OU.

In de bronnen van kwantitatieve data analyse wordt het eenzijdig toetsen nog veel aangehaald en ook voorgeschreven. In de bronnen komt de term eenzijdig 166 keer voor... Ook bij de terugkoppelling wordt soms aangehaald dat er eenzijdig getoetst wordt, maar soms wordt dit niet gedaan, dit wordt wat verwarrend. Zijn de bronnen aan vervanging toe en moet ik even over het woord eenzijdig heen lezen?

Bij het berekenen van de standaardfout voor het verschil tussen de gemiddelden kom ik uit op: 0.176 i.p.v. 0.174. De volgende berekening heb ik gebruikt:

SE = SQRT(sp2 (1/n1+1/n2)
met sp2 = ( (n1-1)*s12  + (n1-1)*s12) / (n1+n2 - 2)

            = ( 63 * (0,96)2 + 63 * (1,03)2 ) / 126

            = 0.99125

SE = SQRT(0.99125 * (1/64 + 1/64) )

      = 0.176

Hieruit volgt een t-waarde van 2.56

Waar maak ik de fout? Graag begrijp ik alle stappen, maar ik zie hier niet wat de vergissing is.

Vriendelijke groet Peter Paul.

Dit is een heel andere vraag dan de vraag op deze pagina. Kun je dit in een aparte vraag stellen, en dan ook duidelijk aangeven welke cursus dit betreft, en waar het precies over gaat?

Nee, mijn opmerking slaat op de berekende standaardfout in het bovenliggende stuk waarin uitgelegd wordt waarom altijd tweezijdig ipv eenzijdig getoetst wordt. Hieronder citeer ik de tekstregels waarin het voorkomt:

De spreiding van deze steekproevenverdeling is gelijk aan de standaardfout voor het verschil tussen deze twee gemiddelden, die we uit kunnen rekenen en die 0.174 is.

Ah, sorry. Ik zie nu ook dat het verschil minimaal is. Een verschil op duizenden is meestal irrelevant: zie ook http://oupsy.nl/help/2676/hoe-nauwkeurig-moet-je-zijn
...