Ik ken zelf geen andere voorbeelden van Nederlands materiaal, dus ik hoop dat andere studenten hier nog bij kunnen helpen.
Begrijp je het verschil tussen de populatieverdeling en de verdeling van steekproefscores wel?
Misschien dat dit helpt:
Verdeling: |
Populatieverdeling |
Verdeling van steekproefscores |
Steekproevenverdeling |
Bevat: |
Datapunten (e.g. scores op IQ, attitude) |
Datapunten (e.g. scores op IQ, attitude) |
Beschrijvings- of samenhangsmaten (e.g. gemiddelde, SD, correlaties) |
Omvang: |
Oneindig groot |
Zo groot als de steekproefomvang |
Oneindig groot |
|
|
Verdelingsvorm: |
Onbekend (maar vorm van verdeling van steekproefscores is een indicatie) |
Die kun je zien aan je data: kan van alles zijn. |
Is bekend: bijvoorbeeld normaal bij de steekproevenverdeling van het gemiddelde |
Van deze verdelingen is de populatieverdeling waar je eigenlijk in geinteresseerd bent als je onderzoek doet. Dat zijn alle scores van de onderzoekseenheden in je populatie. Maar die is oneindig groot, dus die kun je nooit allemaal meten.
Je kunt dus alleen over die populatie leren door een steekproef te nemen. Die heeft wel een 'eindige' omvang (bijvoorbeeld 100 of 200 onderzoekseenheden). Doordat je die 100 of 200 onderzoekseenheden willekeurig kiest, is je steekproef representatief voor je populatie, dus die kun je gebruiken om bijvoorbeeld te schatten wat het gemiddelde in je populatie is.
Maar, doordat je die onderzoekseenheden willekeurig kiest speelt toeval dus een rol bij de totstandkoming van je steekproef. Je kunt puur door toeval een veel te laag of een veel te hoog gemiddelde vinden (datzelfde geldt voor skewness, variantie, correlatie, etc). Doordat alles dat je berekent uit je steekproef tot stand komt door toeval, weet je nooit hoeveel zo'n gemiddelde uit een steekproef nu eigenlijk zelf over je populatiegemiddelde.
Dit is waar de steekproevenverdeling nodig is. Dit is een theoretische verdeling met alle mogelijke gemiddelden die je zou kunnen vinden gegeven je steekproefomvang.
Dat is een andere verdeling dan je populatieverdeling. Smaller, in het geval van het gemiddelde. Dat is logisch: als je een willekeurige onderzoekseenheid neemt uit je populatieverdeling, dan is de kans dat je iemand hebt die zo extreem laag scoort dat ze bij de onderste 1% hoort, precies 1%. En als je nog iemand neemt, is de kans dat je toevallig iemand hebt die weer zo laag scoort, weer 1%. Maar als gemiddelden gaat berekenen van meerdere onderzoekseenheden, dan is de kans dat je zo'n extreem gemiddelde vindt lager: zelfs met een steekproef van 2 onderzoekseenheden is de kans dat je een gemiddelde vindt dat even laag is als die onderste 1% van de populatieverdeling al verwaarloosbaar klein. Dan moet je immers twee onderzoekseenheden hebben waar maar 1% kans op is. En 1% van 1% is .01%. Doordat je een gemiddelde berekent wordt de kans op extreem waarden kleiner. En hoe groter de steekproef is, hoe kleiner die kans wordt.
Daarom is de verdeling van alle mogelijke gemiddelden (de steekproevenverdeling van het gemiddelde) anders dan de verdeling van alle mogelijke enkele datapunten (de populatieverdeling).
Ik hoop dat dit alvast een beetje helpt (ook als compensatie voor dat ik geen ander eNederlandstalige bronnen ken :-)).