Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Vraag over NHST, 4.6

0 leuk 0 niet-leuks

Ik heb een vraag over een stukje waar ik niet uitkom, betreft p148, 4.6/Korte samenvatting NHST:

NHST draait om de zogenaamde p-waarde, de kans om in een steekproef een verband te vinden dat minstens zo sterk is als het gevonden verband, onder de aanname dat het verband in de populatie volkomen afwezig is (dus, r = 0). Onder NHST wordt vervolgens gezegd dat als  deze kans, de p-waarde, lager is dan 5% (.05), dat dan wordt geconcludeerd dat de aanname dat het verband in de populatie  afwezig is waarschijnlijk niet klopt. Deze kritieke p-waarde van .05, alpha, wordt door de onderzoekers gekozen. Hoe hoger alpha is, hoe eerder een verband van een gegeven sterkte significant is, en leidt tot verwerping van de nulhypothese

Het dikgedrukte stuk snap ik niet, naar welk verband wordt hier nu toch verwezen, en waar werd het gevonden?

Klopt mijn onderstaande definitie? Of gooi ik nu van alles door elkaar heen (zo voelt het wel op dit moment).

NHST draait om de zogenaamde p-waarde (alpha). P-waarde geeft de kans aan dat er toeval in het spel is.   NHST neemt aan dat het gevonden verband (r) uit de steekproef niet gevonden zal worden in de populatie, dus de aanname is r=0. Mocht echter blijken dat de p-waarde ) < .05 (=5%) , dan mag de NHST worden verworpen en kan de onderzoeker ervan uitgaan dat het gevonden verband niet op toeval berust en ook gevonden zal worden in de populatie.

Bij Hoe hoger alpha is, hoe eerder een verband van een gegeven sterkte significant is, en leidt tot verwerping van de nulhypothese vraag ik me af:

hoe hoger alpha, hoe eerder een verband van een gegeven sterkte significant is (dus bij 10% = 0.1 is er eerder significantie dan bij .05) maar hoe zwakker het gegeven, de rekenvorm. Want bij 0.05 mag je ervan uitgaan dat er geen toeval in het spel is, bij .01 is het zeer sterk significant  en bij 0.1 veel minder significant. Dus  de onderzoeker die kiest voor een grotere alpha krijgt misschien wel eerder significantie maar een veel minder beduidende significantie.

Is het te volgen?

gevraagd 16 januari 2017 in Inleiding Data Analyse (IDA) door 851928612 (1,800 punten)
bewerkt 16 januari 2017 door 851928612

1 Antwoord

0 leuk 0 niet-leuks
De p-waarde geeft niet de kans aan dat er toeval in het spel is. Die kans weet je niet. En NHST neemt niets aan over wat gevonden wordt in de populatie, want je kunt nooit een hele populatie onderzoeken, slechts steekproeven.

Met "minstens zo sterk als het gevonden verband" wordt bedoeld: een verband dat even sterk of sterker is dan het verband in de betreffende steekproef. Het maakt dus niet uit of dat verband positief of negatief is. Het gaat er alleen om hoe sterk het is. Als voorbeeld: een correlatie van $r=-.5$ is sterker dan een correlatie van $r=.2$.

Dus: je neemt een steekproef uit een populatie. In die populatie heeft een verband een gegeven sterkte, maar die sterkte ken je niet. In je steekproef vindt je een verband van een gegeven sterkte, maar je weet dus niet of die in de buurt ligt van de sterkte van dat verband in de populatie of niet. Hier kun je ook niet achter komen, want er bestaat geen methode om achter de populatiewaarden te komen: de enige methode is het nemen van een oneindig grote steekproef, en dat is onmogelijk. Je werkt dus altijd met onzekerheid, en die onzekerheid wordt nooit opgelost. Maar, we willen dus iets zeggen over de populatie. Nul Hypothese Significantie Toetsing (NHST) doet dat als volgt.

Je neemt de aanname aan dat er geen verband bestaat in de populatie, oftewel, dat in de populatie $r = 0$. Vervolgens neem je de aanname aan dat de steekproevenverdeling van de correlatie-coefficient is verdeeld volgens de steekproevenverdeling van de correlatie-coefficient. Hiermee kun je die steekproevenverdeling opstellen.

Met die steekproevenverdeling onder aanname dat de nulhypothese waar is kun je vervolgens uitrekenen hoe groot de kans is dat je in een willekeurige steekproef het verband vond dat jij in jouw steekproef vond, of een extremer verband (dus als je $r = .32$ vind in je steekproef, dan reken je uit hoe groot de kans is dat je in een willekeurige steekproef een correlatie vindt die $r <= .32$ of $r >= .32$).

Die kans (de kans om in een steekproef een verband te vinden dat minstens zo sterk is als het gevonden verband, onder de aanname dat het verband in de populatie volkomen afwezig is) heet de $p$-waarde.

Dit drukt dus niet uit hoe groot de invloed van toeval is, of hoe groot de kans is dat het verband dat je vond door toeval komt.

Het drukt uit hoe groot de kans is dat in een willekeurige steekproef een verband wordt gevonden dat minstens zo sterk is als het verband dat je hebt gevonden, onder de aanname dat er in de populatie geen verband bestaat.

Dit is niet verder te versimpelen. Het is een conditionele, abstracte kans. Er zijn geen shortcuts voor die niet fout zijn. Bestudeer dit dus goed en zorg dat je echt begrijpt wat er staat.

Vervolgens stelt NHST dat de nulhypothese kan worden verworpen als $p < \alpha$. De redenering is dat het wel heeeeel toevallig zou zijn als deze ene steekproef nu net zo'n zeldzame steekproef is. Als het niet toevallig is, dan betekent dat dat de berekende $p$-waarde niet klopt. Als die niet klopt, moet een van de aannames waarmee die is berekend wel niet kloppen. En de verdeling van Pearson's $r$ (dus, de correlatie-coefficient) is gewoon bekend, dus die verdelingsvorm kan niet fout zijn. De aanname die fout is, moet dus wel die zijn dat het verband in de populatie gelijk is aan 0. Daarom wordt de nulhypothese in die situatie verworpen.

Tot slot, over je tweede vraag: dat klopt, hoe hoger de alpha, hoe zwakker de (eventuele) verwerping van de nulhypothese. Bij een alpha van 100% wordt de nulhypothese elke keer verworpen; bij een alpha van 50% wordt de nulhypothese 50% van de tijd verworpen als hij toch waar is. Bij een alpha van 5% (dit wordt het meeste gebruikt) wordt de nulhypothese 5% van de tijd verworpen als hij toch waar is. Of in een gegeven situatie waarin de nulhypothese wordt verworpen, dit terecht is of een Type 1-fout, weet je nooit.

Je weet immers niets over de populatie. Het is zelfs niet zo dat als je een $p$-waarde van $.001$ hebt, dat de kans dat je de nulhypothese onterecht verwerpt (de kans op een Type 1-fout) dan lager is dan als je een $p$-waarde hebt van $.04$. De kans op een Type1-fout hangt uitsluitend af van de alpha, die je van tevoren vaststelt.

Zie eventueel ook http://oupsy.nl/help/3080/waarom-het-goede-antwoord-proeftentamen-ida-vraag-antwoord
beantwoord 16 januari 2017 door gjp (69,380 punten)
...