Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Als je in een steekproef een correlatie vindt van .423, en de p-waarde is hoger dan .05, is die correlatie dan zinvol te labelen als middelsterk tot sterk? Of mag dat pas als hij significant is?
in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (77.8k punten)

1 Antwoord

0 leuk 0 niet-leuks

Het is hier cruciaal om een aantal zaken scherp te hebben.

Ten eerste: een correlatie is simpelweg de uitkomst van een berekening. Als je twee datareeksen hebt kun je een correlatie uitrekenen. Die is er dan.

Ten tweede: wat je vindt in een steekproef komt altijd tot stand door twee zaken: de situatie in de populatie en error (steekproeftoeval en meetfout).

Ten derde: significantie is niet zaligmakend, in tegendeel, het concept 'significantie' (meestal: p-waarde lager dan .05) is een onderdeel van nulhypothese significantie toetsing, die over het algemeen wordt afgeraden en door steeds meer wetenschappelijke tijdschriften niet meer wordt geaccepteerd als primaire uitkomst van onderzoek.

Dus.

Elke correlatie is zinvol te labelen als 'zwak', 'middelsterk', of 'sterk' (hoewel die labeling zoals voorgesteld door Cohen, dus bij .1, .3, en .5, expliciet was voorgesteld als tentatieve labeling; normaal bepaal je als je je studie preregistreert (dus van te voren je procedures, materialen, analyseplannen, wervingsplannen etc openbaar vastlegt) welke verbanden je hoe gaat interpreteren op basis van contextuele informatie en theorie).

Of een correlatie significant is maakt niet uit voor of die labeling.

De p-waarde is de kans dat je een gegeven correlatie vindt in je steekproef als die steekproef at random is getrokken uit een populatie waar de correlatie gelijk is aan 0. Dit is dus niet de kans dat je uitkomst door toeval komt! Het is een conditionele kans. Het is heel moeilijk om correct over conditionele kansen te denken - zo moeilijk dat de meeste wetenschappers in de psychologie dat fout doen, met als gevolg slecht onderzoek, conclusies die niet kloppen, en misinformatie in journals en tekstboeken. Dus wees niet ontmoedigd als het even kost om dit echt goed te snappen. De p-waarde is alleen de kans op jouw effect size, als die zou zijn getrokken uit een steekproevenverdeling rondom een effectsize van nul (of accurater: rondom een effect size die 'geen verband' uitdrukt).

De p-waarde, en of een correlatie significant is, vertelt je dus eigenlijk niets. Want je weet niet of de aanname, op basis waarvan de p-waarde is uitgerekend, klopt. In de praktijk wordt de p-waarde gebruikt om de nulhypothese (er is een correlatie van 0 in de populatie) te verwerpen. Dit is om allerlei redenen problematisch (een hiervan is dat je van te voren al weet dat de correlatie niet 0 is in de populatie; misschien .0001, of .01, maar nooit exact 0; een andere reden is dat als je die nulhypothese verwerpt, je vervolgens niet weet hoe sterk die correlate dan is), maar wordt wel veel gedaan, vooral in oudere artikelen.

Wat je beter kunt doen is gelijk een betrouwbaarheidsinterval berekenen. Wat je eigenlijk beter kunt doen is de steekproevenverdeling tekenen onder de aanname dat je steekproevencorrelatie de populatiecorrelatie is. Dat geeft je een indruk van de onzekerheid in je schatting. Maar dit kan alleen relatief eenvoudig met R, en zit niet in de cursus.

Anyway, terug naar de hoofdvraag.

Ja, je kunt zinvol een label plakken op een correlatie die je in een steekproef berekent.

Je kunt dus zeggen (en nu doe ik mijn best om het niet te formuleren zoals dat gangbaar is, maar zoals je het zou moeten doen gegeven wat we inmiddels weten over hoe statistiek en toetsing werken):

In de steekproef werd een middelsterke correlatie gevonden ($r = .42$). Conform de analyseplannen in onze preregistratie pasten we nulhypothese significantietoetsing toe met een alpha van $.05$. De $p$-waarde die bij deze correlatie hoort was $.062$, en daarom verwerpen we de nulhypothese niet.

Je zou nu eigenlijk iets willen zeggen over wat je dan weet over de populatie, maar dat staat NHST niet toe. Je kunt niet zeggen dat je dus weet dat er geen verband is; het verband is misschien zelfs .423 in de populatie, maar je had gewoon te weinig datapunten om dat te detecteren (anders was je $p$-waarde lager geweest).

Wat je beter kunt doen, in plaats van nulhypothesetoetsing, is betrouwbaarheidsintervallen berekenen. Het meeste onderzoek dat in de psychologie wordt gedaan (in elk geval aan onze universiteit) toetst geen hypothesen in de formele zin van het woord (en alleen als je een hypothese toetst in de formele zin van het woord is NHST een bruikbaar instrument). Het meestal onderzoek wil gewoon weten hoe sterk verbanden zijn in de populatie.

Dat is geen hypothesetoetsing. Je veronderstelt al dat er een verband is; je toetst geen voorspelling van een theorie. Je past een theorie toe in een gegeven situatie/populatie. In dat geval wil je gewoon weten hoe sterk de correlatie is. Die vraag wordt beter beantwoordt met betrouwbaarheidsintervallen dan met NHST.

Je kunt dus een correlatie uit een steekproef prima labelen als .423, of hij nu significant is of niet; dat staat er los van. Een correlatie is niet iets dat alleen bestaat, of alleen benoemd of besproken mag worden, in de populatie: een correlatie is gewoon de uitkomst van een berekening. En als je besluit om r > .3 te bestempelen als een 'middelsterk' verband, dan kun je dus zeggen dat je met r = .423 een middelsterk verband hebt gevonden. In je steekproef.

Maar dat je een correlatie van .423 vindt in een steekproef, en die zinvol kunt labelen als zwak, middelsterk, sterk, etc, zegt nog niet dat die interessant is. Je neemt een steekproef immers alleen maar om iets te zeggen over je populatie. De steekproef zelf is niet boeiend - alles patronen die je daar ziet kunnen immers, for all you know, gewoon door toeval komen.

Oh, en - voordat je nu denkt dat je aan de p-waarde kunt zien hoe groot de kans is dat die patronen door toeval komen - dat kan dus niet. De p-waarde drukt alleen maar uit hoe groot de kans is dat een verband van de grootte die je vond in je steekproef, wordt gevonden in een steekproevenverdeling die is opgesteld op basis van een volkomen afwezig verband.

De p-waarde vertelt je dus niets over de rol van toeval. Het is niet zo dat een hoge p-waarde indicatief is voor veel toeval, en een kleine p-waarde voor weinig toeval.

Het enige dat indicatief is voor de rol van toeval is de breedte van de steekproevenverdeling van je effectgrootte (of wat je dan ook uitrekent in je steekproef; kan ook een factorlading of een gemiddelde zijn). Je kunt een indruk krijgen van die breedte door het betrouwbaarheidsinterval uit te rekenen. Smal betrouwbaarheidsinterval? Weinig toeval. Breed betrouwbaarheidsinterval? Veel toeval. Of beter uitgedrukt: smal betrouwbaarheidsinterval, accurate schatting (oftewel, je steekproefwaarde zit waarschijnlijk niet al te ver van de populatiewaarde); breed betrouwbaarheidsinterval, geen accurate schatting (oftewel, je steekproefwaarde kan zomaar heel ver van de populatiewaarde af zitten - of heel dicht in de buurt, dat weet je gewoon niet).

Ik sluit af met een overweging in een gesprek op Twitter dat ik laatst met iemand voerde (via DM, dus je gaat het niet vinden mocht je het proberen te zoeken :-)):

Absolutely. Statistics is, I find more and more, like law, about trying to arrive at the best subjective judgment calls.

Imagine starting a statistics course with this. Would this relieve students, or scare the living hell out of them?

Er is geen manier om zekerheid te krijgen over de populatie. Je werkt alleen met kansen. Zekerheid krijgen over je steekproef kan wel: alles wat je berekent uit je steekproef klopt absoluut voor die steekproef. Vervoglens afleiden wat je dan weet over de populatie, dat is het lastige.

door (77.8k punten)
In het boek staat dat ondanks alle kritiek toch nog veel met de nulhypothesetest wordt gewerkt. Door wie gebeurt dat dan en waarom? En betekent dit dus dat je een artikel altijd eerst moet scannen op deze term, dan moet kijken welke r. Waarde als significant is gelabeld en als dat een hele lage is bij grote n en er gecorrigeerd blijkt met de bonferronimethode je kunt concluderen dat de significante uitkomsten verwaarloosbaar zijn? Is er ergens een soort critical appraisal list voor specifiek dit aspect?
...