Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Ik heb een vraag over vraag 61 van het oefententamen

0 leuk 0 niet-leuks
Hoi,

Ik heb een vraag over vraag 61 van het oefententamen:

Wat betekent het als de p-waarde van een geschatte regressiecoëfficiënt niet significant is met alpha=5%?

a) de kans is groter dan 5% om deze of een grotere regressiecoëfficiënt te vinden als de nulhypothese waar is.

b) de kans is groot dat de gevonden waarde van de regressiecoëfficiënt nul is.

Gevoelsmatig is het voor mij b) maar het is dus juist a). Wat ik niet begrijp is:

1) de p-waarde was niet significant. Hoe kan de kans om een grotere regressiecoëfficiënt te vinden dan ineens 5% of groter zijn?

2) waarom wordt alpha gebruikt om de kans op een p-waarde te vinden? In een andere oefententamenvraag werd daarvan ook gezegd dat de alpha niet de kans op een gevonden p-waarde weergeeft maar de kans om de nulhypothese onterecht te verwerpen.

Deze vraag is al eens gesteld, maar niet zodanig beantwoord dat ik het ook begrijp.

Kan iemand helpen??? Alvast bedankt!
gevraagd 7 juli in Inleiding Data Analyse (IDA) door margrietformanoy (140 punten)

1 Antwoord

0 leuk 0 niet-leuks
De p-waarde is de kans dat je de gevonden waarde of een extremere waarde vindt. "Extremer" betekent "verder van de nulhypothese-waarde af", en da's meestal 0, dus "extremer" betekent meestal "kleiner voor een negatief getal en groter voor een positief getal".

Als een effectgrootte (een regressie-coefficient bijvoorbeeld) niet significant is met een alpha van .05, dan is dat hetzelfde als zeggen dat de p-waarde van die effectgrootte groter is dan die alpha, dus .05.

Dat betekent dat je nu weet dat de kans op de gevonden regressiecoefficient, als de nulhypothese waar is, groter is dan 5% (want anders wassie significant).

Je bent misschien in de war omdat je een enkele situatie verwart met uitspraken over "oneindigheid". Statistiek gaat bijna altijd over oneindig herhalingen. Het feit dat je dingen in kansen uitdrukt zegt dat al: in een gegeven steekproef is nergens meer kans op, want er is geen onzekerheid meer over wat je gemiddelde gaat worden, bijvoorbeeld. Als voorbeeld: je gooit een munt op. In een enkele steekproef (1 keer een munt opgooien, als we een steekproef met n=1 nemen) is er, als de data eenmaal zijn verzameld, geen kans meer op een uitkomst: er is alleen de uitkomst. Of munt, of kop. Je zou kunnen zeggen: de kans op de behaalde uitkomst is 1, en de kans op alle andere uitkomsten is 0; maar dat is wat onzinnig, want er is geen onzekerheid meer over de uitkomst, die weet je gewoon.

Maar, voordat je de munt opgooit kun je wel zeggen dat de kans op elk van beide uitkomsten 50% is (.5). En je kunt dus ook zeggen dat als je oneindig vaak een munt opgooit, de kans op kop gemiddeld genomen 50% gaat zijn. Als je twee keer een munt opgooit, is de kans dat je twee keer kop gooit 50% van 50% (kans op eerste keer kop gooien is 50%; van die 50% is dan weer 50% kans dat je de tweede keer kop gooit), dus 25%. Bij een n=2 zijn er dus 4 uitkomsten, die elk een kans hebben (eerste keer kop; tweede keer kop; beide keren kop; geen kop). Als je in een situatie twee keer een munt op hebt gegooid, en je hebt twee keer kop gegooid, dan is er geen kans meer dat je twee keer kop gooit: er is al een uitkomst, je hebt al twee keer kop gegooid. Die kans van 25% geldt over oneindig vaak een munt opgooien, maar niet voor elke individuele steekproef als die eenmaal is genomen, want dan staat de uitkomst al vast. Die kans van 25% gaat over de steekproevenverdeling, niet over de steekproefscores.

Als het bij statistiek over kansen gaat, gaat het dus om de kans (in de steekproevenverdeling). Als ik een steekproef neem en leeftijd van mensen in Nederland meet, dan is er een bepaalde kans dat ik een gemiddelde vindt van 40 jaar of hoger. Of van 20 jaar of lager, et cetera. Als je nu een nulhypothese hebt (bijvoorbeeld de gemiddelde leeftijd in Nederland in 1980; laten we zeggen dat die 46 jaar is), en je neemt een steekproef van 100 mensen, dan weet je zeker dat de steekproevenverdeling van het gemiddelde normaal is verdeeld; en dus kun je op basis van een nulhypothese (de gemiddelde leeftijd is 46) en de standaarddeviatie de standaardfout berekenen en de steekproevenverdeling opstellen. Dan weet je hoe groot de kans is dat je een gemiddelde leeftijd vindt van 50 of hoger (als de nulhypothese waar is).

Helpt dit?

Met betrekking tot je tweede vraag: alpha wordt nooit gebruikt om de kans op een p-waarde te vinden. In combinatie met of een p-waarde significant is, kun je weten of die p-waarde boven of onder alpha ligt; omdat "significant" is gedefinieerd als "de p-waarde ligt boven alpha". Maar dat is niet hetzelfde als de p-waarde vinden.
beantwoord 7 juli door gjp (69,380 punten)
...