Hoe groter de steekproef, hoe kleiner de p-waarde, want...klopt deze redenatie?

Question

Hoe groter de steekproef, hoe kleiner de p-waarde, want...klopt deze redenatie?

1 Slide in hc 2 stelt
Hoe groter de steekproef hoe kleiner de p-waarde.

Maar die p-waarde komt toch voort uit je steekproefwaarde, niet uit je steekproefomvang? Of bedoelen jullie: dezelfde steekproefwaarde uit een kleine steekproef heeft een grotere p-waarde dan die steekproefwaarde uit een grote steekproef?

En leg ik dat dan zo goed uit: dat komt omdat in een grote steekproef een spitsere vorm is en de range kleiner is dan in een kleine, dus er zijn minder waarden in totaal, dus de oppervlakte onder de (spitse) boog en de x-as is kleiner dan in een verdeling van een kleine steekproef en die oppervlakte zegt iets/correspondeert met het aantal steekproeven dat je zou trekken uit de nulhypotheseverdeling als de nulhypothese waar zou zijn. Die oppervlakte is veel kleiner in een spitse verdeling die hoort bij een grote steekproefomvang dan in een plattere verdeling bij een kleine steekproefomvang.
Klopt dit?

En hieraan gerelateerd: ik begrijp in Open Mens H 15 een aantal dingen niet die hierover gaan.

'Een steekproefomvang van n=500 maakt het dus mogelijk om de kans op een type 1-fout te beperken tot 1%, terwijl de kans op een type 2-fout ook beperkt blijft.

Hoezo geldt dat je de kans op type 1 fout beperkt tot 1%? Die is toch gerelateerd aan je alpha en ook bij een grote steekproef kun je toch zeggen: ik verwerp het bij p<0.05 en dan is dus de kans dat je hem onterecht verwerpt (type 1 fout) 1 op 20, 5%? Ik begrijp niet waarom deze kans in een grote steekproef ineens 'verdwenen' zou zijn? Is toch een keuze van de onderzoeker?

(...) Sterker nog, door de steekproefomvang te vergroten is de kans dat we een relatief lage correlatie in onze steekproef vinden kleiner geworden, als de populatiecorrelatie inderdaad r=.40 is.

De steekproevenverdeling waar onze steekproefcorrelatie eigenlijk uitkomt is met n=500 namelijk ook een stuk smaller.

Maar hoe kun je die kans aflezen uit je nulhypothesetesting, daarin kijk je toch niet naar de populatiecorrelatie, want die heb je niet?

Tot slot begrijp ik niet waar de percentage vandaan komen in de tekst die daarna volgt. Ik heb het idee dat mijn vragen er niet duidelijk op worden als ik probeer uit te leggen wat ik er niet aan snap...Het gaat om dit stukje tekst:

'Een aanzienlijk deel van de steekproevenverdeling voor r=.40 is groen! Om precies te zijn is het 83.54%.' Hoe weten jullie dat percentage op basis van het plaatje en op basis van logica?

Sorry voor mijn warrige vragen, ik weet niet zo goed hoe ze duidelijker te verwoorden en daarbij ook aan te geven waarom ik er niet uitkom..

gevraagd 13 november 2023 in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door levenslang leren (1.2k punten)

1 Antwoord

Natascha de Hoog · Answer 1 · 2023-11-14T10:09:01+0000

Het is inderdaad een pittig hoofdstuk, dus ik begrijp je verwarring wel. Laat ik proberen het kort samen te vatten:

Het is inderdaad zo dat als we zeggen 'hoe groter de steekproef hoe kleiner de p-waarde' we inderdaad bedoelen bijdezelf uitkomsten. Dus een correlatie van .20 is misschien niet significant bij n = 50, maar wel bij n = 500. Dat komt inderdaad omdat (zoals in het hoofdstuk over NHST wordt uitgelegd) omdat een verdeling met meer deelnemers smaller is. Een smallere verdeling heeft dus ook een smaller gebied waar de extremere scores invallen, dus bij eenzelfde alfa bestrijkt dit een kleiner gebied en is je p-waarde dus lager.

In het hoofdstuk NHST waar gesproken wordt over type-2 fouten blijft de type-1 fout hetzelfde, enkel de type-2 fout wordt kleiner. Dus dat staat er, bij n = 500, waar we alfa al hadden beperkt tot .01, waardoor er dus een kleine type-1 fout is, maak je door n te vehogen ook je type-2 fout kleiner.

Dit hele hoofdstuk is bedoeld om te illustreren wat achter nulhypothese-toetsing zit, maar er wordt veel bijgehaald dat niet wordt uitgelegd en ook niet van jou verwacht wordt. Als je zelf onderzoek doet dan doe je gewoon een correlatie analyse en daar wordt een bijbehorende p-waarde bij berekend.

Echter, dit wordt allemaal uitgediept om uitteleggen hoe we aan die p-waardes komen en wat de gevolgen zijn van een bepaalde alfa.

Jouw vraag waar precies die getallen vandaan komen is eigenlijk de vraag hoe wordt een p-waarde berekent. Dat is iets dat je niet hoeft te weten en gewoon kunt aannemen. Tegenwoordig gebruiken we hier software voor, maar vroeger waren er tabellen die aangeven bij welke correlatie en welke steekproefomvang een bepaalde p-waarde hoort.

Het is dus niet per se belangrijk dat je weet waar die getallen vandaag komen, maar dat je de logica begrijpt dat er een verband bestaat tussen de breedte van een verdeling, het aantal deelnemers en de bijbehorende p-waarde.

Categorieën

Hoe groter de steekproef, hoe kleiner de p-waarde, want...klopt deze redenatie?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Hoe groter de steekproef, hoe kleiner de p-waarde, want...klopt deze redenatie?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.