steekproevenverdeling

Question

steekproevenverdeling

Ik blijf helaas worstelen met de steekproevenverdeling.Daarom lijst ik even al mijn (dwaze) vragen op:

Is de steekproevenverdeling nu op basis van echte steekproeven of op basis van gesimuleerde?
Hoe simuleer je steekproeven?
Er wordt gezegd dat de steekproefverdeling alle mogelijke waarden bevat voor een gegeven maat. Duidt dit dan op "oneindig"?
Als de steekproevenverdeling oneindig aantal waarden bevat, is de steekproevenverdeling dan niet gelijk aan de populatie?
Als de steekproevenverdeling toch alle waarden over je steekproef bevat, waarom doe je dan nog steekproeven? Alles is toch al bekend of niet?
Waar vind ik de steekproevenverdeling?

Eeuwige dankbaarheid voor elk antwoord!

gevraagd 16 oktober 2019 in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door vibe (160 punten)

3 Antwoorden

gjp · Answer 1 · 2019-10-17T09:51:57+0000

Een steekproevenverdeling is een theoretische verdeling met oneindig veel datapunten. Daarom kan hij nooit worden getoond of gevisualiseerd; visualisaties worden daarom vaak gemaakt op basis van simulaties.
Door random nummers te kiezen (als dit je vraag beantwoordt?)
Ja dus.
Omdat steekproevenverdelingen altijd bestaan, maar je ze niet kent. Je kent de vorm meestal wel (e.g. door de centrale limietstelling is de steekproevenverdeling van het gemiddelde altijd normaal, tenzij je zo'n klein steekproefje hebt dat je uberhaupt geen onderzoek zou moeten doen, e.g. maar 50 mensen ofzo), maar je weet niet wat het gemiddelde is. Als je dat wel zou weten, zou je inderdaad geen steekproef meer hoeven doen.
Je vindt die nergens - hij is theoretisch, niet tastbaar. Je weet zeker dat hij bestaat, maar je kunt hem nooit echt kennen.

Dit zijn bijna filosofische/existentiele antwoorden realiseer ik me :-)

Natascha de Hoog · Answer 2 · 2019-10-17T09:52:00+0000

Laten we bij het begin beginnen. Een steekproevenverdeling is een theoretische verdeling. Dit houdt in dat het dus niet in de echte wereld bestaat, maar dat het een theoretische construct is die we kunnen afleiden uit echte steekproeven of anders kunnen simuleren. Dit laatste kunnen we doen om mooie statistische voorbeelden te laten zien hoe een steekproevenverdeling eruit ziet. Dit gaat schuil achter de statistische toetsen die we doen en de conclusies die we hieruit trekken.

Stel je trekt een steekproef van 500 mensen en onderzoekt hun gemiddelde lengte. Als je zo'n steekproef oneindig vaak zou herhalen kom je tot de steekproevenverdeling van lengte. Deze steekproevenverdeling bevat dan alle mogelijke waarden, maar dit betekent niet oneindig. Je hebt bijvoorbeeld hele kleine mensen en hele lange, maar de langste mens is waarschijnlijk hoogstens 220 cm en je zult nooit een waarde vinden van bijv. 500 cm.

Wat precies de steekproevenverdeling van iets is weet je niet, net zoals je meestal niet weet wat dit in de populatie is. Maar met behulp van het trekken van steekproeven om het te onderzoeken kunnen we iets zeggen over die mogelijke verdeling.

Met een steekproef weet je nog vrij weinig, maar hoe meer steekproeven je doet hoe meer je in de buurt komt van de steekproevenverdeling. Als we in een steekproef een gemiddelde lengte vinden kunnen we wel het bijbehorende 95% betrouwbaarheidsinterval berekenen. Dat is al een iets betrouwbare maat dan het gemiddelde uit onze steekproef, want dan kunnen we zeggen dat als we 100 keer een vergelijkbaar onderzoek zouden doen in 95 procent van de gevallen het populatiegemiddelde in het interval valt. Of simpeler gezegd, dat er een grote kans is dat het populatiegemiddelde ligt in het door ons gevonden interval.

Ron Pat-El · Answer 3 · 2019-10-17T10:51:32+0000

Een goede vraag verdiend een derde antwoord ;). Ik wil graag toevoegen aan de uitstekende antwoorden van gjp en Natascha de Hoog, door een contrast te maken tussen een steekproevenverdeling en een kansverdeling. Wellicht zit hier de verwarring.

Een kansverdeling is een wiskundige beschrijving van een willekeurig proces. De kansverdeling is een overzicht van de kans op iedere gebeurtenis in een verzameling. Bijvoorbeeld: bij een dobbelsteenworp is de verzameling (populatie) van alle gebeurtenissen de ogen: $$\{1, 2, 3, 4, 5, 6\}$$. De verdeling van de kansen, ervan uitgaande dat de dobbelsteen 'eerlijk' is, is $$\{\frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6}, \frac{1}{6} \}$$. Omdat iedere gebeurtenis in de verzameling dezelfde kans heeft heet deze kansverdeling een uniforme verdeling.

Dan de essentiële brug naar de steekproevenverdeling. Iedere individuele steekproef wordt getrokken met de eigenschappen van de wiskundige kansverdeling. Simpel gezegd: als het gedrag in de populatie uniform verdeeld is, dan, als we maar een steekproef trekken die voldoende groot is, bijvoorbeeld een oneindig grote, zal de verdeling van alle gebeurtenissen (alle dobbelsteenworpen) een patroon vertonen overeenkomstig met de kansverdeling. Een plat histogram lopende van 1 t/m 6 (en ‘nul’ buiten deze waarden).

Maar, dat is het geval zolang je ‘1’ steekproef trekt. Er gebeurt echter iets bijzonders als je niet meer een enkele dobbelsteen gooit, maar nu een tweede dobbelsteen gaat gooien, en de uitkomsten van de twee worpen optelt. De som van de twee steekproeven is niet meer uniform verdeeld, ondanks dat iedere steekproef wel uniform verdeeld is. De uitkomstruimte is vergroot naar: $$\{2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12\}$$, maar niet iedere uitkomst is even waarschijnlijk meer. Er is namelijk maar 1 manier om '2' te verkrijgen na twee steekproeven $\{1,1\}$, idem voor 12 $\{6,6\}$. Om bij twee steekproeven een opgetelde waarde van '2' te krijgen is de kans $\frac{1}{6}*\frac{1}{6} = \frac{1}{36} = .027$. Er zijn bijvoorbeeld 2 manieren om '3' te gooien: $\{1,2\}$ en $\{2,1\}$. Dus de kans op '3' is al twee keer zo groot als '2', $2*(\frac{1}{6}*\frac{1}{6}) = \frac{1}{18} = .056$.

De kansverdeling van deze twee steekproeven is dus niet gelijk aan de kansverdeling van de steekproef. Deze is nu namelijk:

$$\{ \frac{1}{36}, \frac{1}{18}, \frac{1}{12}, \frac{1}{9}, \frac{5}{36}, \frac{1}{6}, \frac{5}{36}, \frac{1}{9}, \frac{1}{12}, \frac{1}{18}, \frac{1}{36} \}$$

Merk op dat deze verdeling lijkt op de verdeling die je misschien al uit de cursus kent: de grootste kans is het centrum van de verdeling, 1/6, en wel voor het gooien van opgeteld ‘7’ in twee steekproeven. Dit komt omdat er meer manieren zijn om ‘7’ te gooien, namelijk, $\{1,6\}\{2,5\}\{3,4\}\{4,3\}\{5,2\}\{6,1\}$, dan er manieren zijn om een der andere opgetelde uitkomsten te gooien. De kans neemt ongelijkmatig af naarmate we verder van het centrum zijn. Omdat we hier spreken over een verzameling van telbare gebeurtenissen noemen we deze verdeling een binomiaal verdeling. Wanneer we een oneindig aantal dobbelstenen gooien, dus oneindig aantal steekproeven ‘trekken’ uit de uniforme verdeling, dan gedragen de opgetelde steekproeven zich vergelijkbaar met als hierboven beschreven, maar de ontelbare variant van de binomiale verdeling heet de normaal verdeling.

Het bovenstaande proces is een wiskundige wetmatigheid; ongeacht de steekproefverdeling, al dan niet uitgedrukt in een bekende (wiskundige) kansverdeling, zal de verdeling van de optelling van steekproeven naar een normaal verdeling neigen. Deze wiskundige wetmatigheid noemen we de Centrale Limietstelling. Er zijn vele voetnoten, mitsen, en maren, maar die zal ik gemakshalve niet behandelen in dit antwoord (*).

Dus: Een kansverdeling is een wiskundige beschrijving van het gedrag van één random variabele (de nadruk voorkomt hopelijk dat wiskundigen mij verwijten de joint probability distributions niet te kennen). Ieder individu in de steekproef wordt getrokken uit deze verdeling, dus kan een gebeurtenis vertonen met een bepaalde kans. De steekproefverdeling is een overzicht van het gedrag van vele individuen, ieder een gebeurtenis naar een kansverdeling. De verdeling van deze verzameling individuen is (in de meeste gevallen) ons onbekend en we hopen vaak dat de populatie waar wij een steekproef uit trekken zich gedraagt naar de wiskundige verdeling die wij in gedachten hadden. De optelling van meerdere steekproeven noemen wij de steekproevenverdeling en zolang iedere steekproef voldoende N heeft ($N > 30$), en de steekproefverdeling niet overdreven afwijkt van een normaal verdeling, dan zal de steekproevenverdeling normaal verdeeld zijn

*. Korte samenvatting van de mitsen en maren: een normaal verdeling is theoretisch niet alleen oneindig, maar loopt ook van min-oneindig tot plus-oneindig. populaties met harde onder- of bovengrenzen, of extreem scheve verdelingen, zullen geen normaal verdeling vertonen in een steekproevenverdeling.

Categorieën

steekproevenverdeling

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

3 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

steekproevenverdeling

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

3 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.