Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Verwerkingsopdracht 4.7.1 geen heldere verklaring waarom antwoord C de juiste is

0 leuk 0 niet-leuks

Ik kan me voorstellen dat dit eigenlijk altijd het geval is bij een populatie van 20, maar hoe kan ik dit zien? Ik tel bijvoorbeeld maar 4 p-scores die boven de 0.05 uit komen. Dus je kan zeggen dat voor 4 scores de kans groter is dan 5% dat er een type 1 fout wordt gemaakt. Of Is het omdat het theoretisch mogelijk is dat er op alle scores een type 1 fout is gemaakt?

gevraagd 7 november 2017 in Inleiding Data Analyse (IDA) door Sandor (510 punten)

1 Antwoord

1 leuk 0 niet-leuks

Een Type 1-fout is ten onrechte concluderen dat twee variabelen samenhangen. De kans op een Type 1-fout is gelijk aan de gebruikte alpha: oftewel, als je NHST (nulhypothese significantie toetsing) toepast, en je besluit om de nulhypothese te verwerpen als je een uitkomst hebt die zo extreem is dat hij, als de nulhypothese waar is, maar in 5% (of minder) van de steekproeven voorkomt, dan is de kans op een Type 1-fout dus 5% per toets.

Als je zes $p$-waarden berekent, dan is de kans op een Type 1-fout dus 5% voor elk van de zes toetsen. De kans dat je over alle zes toetsen een Type 1-fout maakt (of meerdere Type 1-fouten, dat kan natuurlijk ook) is groter dan 5%.

Een manier om hier intuitief over na te denken is een Type 1-fout te vergelijken met 1 gooien met en dobbelsteen. Als je zes dobbelstenen hebt, is de kans dat je minimaal een keer een 1 gooit groter dan als je maar 1 dobbelsteen hebt.

Om die reden maakt de $p$-waarde die je vindt ook niet uit; de kans op een Type-1 fout is een eigenschap van je toetsingsprocedure. Je wil dat je toetsingsprocedure zodanig is dat de kans op Type-1 en Type-2 fouten acceptabel is. Op het moment dat je $p$-waarden hebt berekend, heb je al besloten hoe je precies gaat toetsen; dan is het dus al te laat om je studie zodanig te plannen dat je de kans op een Type-1 en Type-2 fout op een acceptabele hoogte zet.

Of je een Type-1 fout hebt gemaakt in een specifieke steekproef of een specifieke set van toetsen weet je nooit. Die kans is eigenlijk 0 of 1; maar er is geen manier om er achter te komen wat het is.

Net zoals dat de betrouwbaarheid van een betrouwbaarheidsinterval (bijvoorbeeld 95%) een eigenschap is van de procedure van de berekening van een betrouwbaarheidsinterval (dus, over alle mogelijke betrouwbaarheidsintervallen zal de populatiewaarde in een bepaald percentage van de gevallen in het interval liggen), is de kans op een Type-1 fout en de kans op een Type-2 fout een eigenlijk van je toetsingsprocedure. Met een kans op een Type-1 fout van 5% zul je, over alle mogelijke 'toetsingen', 5% van de tijd de nulhypothese ten onrechte verwerpen.

In elk van die specifieke 'toetsingen' is de kans op een Type-1 ofwel 0%, ofwel 100%: je verwerpt ofwel de nulhypothese, ofwel niet.

Als je het dus hebt over de kans op een Type-1 fout, dan gaat het normaal altijd over de kans op een Type-1 fout bij toepassing van een specifieke procedure in het algemeen, niet over de kans dat er in een gegeven steekproef een Type-1 fout wordt gemaakt.

Als het dat laatste was geweest zou je inderdaad kunnen zeggen dat je in die vier $p$-waarden die niet significant waren hoogstens Type-2 fouten zou kunnen maken. En in die andere twee $p$-waarden zou je Type-1 fouten kunnen maken, maar geen Type-2 fouten. En de kans dat je over die zes $p$-waarden een Type-1 fout maakt, is of 0%, of 100% - alleen weet je niet welke, want je weet niet of in de populatie de nulhypothese waar is.

(Ter extra-curriculaire verdieping: natuurlijk is de nulhypothese, dat er geen verband bestaat tussen twee variabelen in de populatie, eigenlijk onzinnig. Als je in genoeg decimalen kijkt, is er altijd een verband. Dit is een wat complexere discussie; en gegeven dat je uiteindelijk meestal toch pas echt conclusies kunt trekken op basis van de aggregatie van meerdere studies, is hij voor deze eerste cursus verder niet relevant. De nadelen van nulhypothese significantie toetsing zijn in de cursus al uitgebreid aan bod gekomen.)

beantwoord 7 november 2017 door gjp (70,230 punten)
Bedankt voor het uitgebreide antwoord! Het is me nu helemaal duidelijk.
...