Hoe kan een scheve verdeling naar een normaalverdeling evolueren?

Question

Hoe kan een scheve verdeling naar een normaalverdeling evolueren?

Sofie Horemans studiecentrum Antwerpen

Betreft deel 2.3. steekproevenverdelingen.

Op bladzijde 8-9 staan verschillende histogrammen van de steekproevenverdeling van het aantal keren dat iemand iets gewonnen heeft in een loterij. Naarmate de steekproef groter wordt evolueert deze van een uitzonderlijk scheve verdeling naar een normaalverdeling.

28% van de bevolking wint echter nooit iets in een loterij. Dit kan ik duidelijk aflezen uit het eerste histogram maar hoe groter het aantal deelnemers wordt, hoe minder ik dit vertaald zie in de grafieken...

Ik zou verwachten dat deze verdeling altijd scheef zou blijven maar dat is blijkbaar niet zo.

Hoe moet ik deze histogrammen interpreteren?

vriendelijke groeten

gevraagd 10 mei 2017 in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door Sofie (720 punten)

2 Antwoorden

Reinout Vrijhoef · Answer 1 · 2017-05-11T07:31:50+0000

Dit komt, omdat dit niet de verdeling is binnen de steekproef, maar de verdeling van mogelijke deelsteekproeven binnen de grote steekproef. Hoe groter de deelsteekproef is die je neemt ($n$), hoe groter de kans is dat er wel een 'winnaar' tussen zit. Dit kunstje doe je heel vaak (of laat je door SPSS of R doen, is wel aan te raden) en je maakt een nieuwe grafiek van deze resultaten. Hoe groter de $n$ van de deelsteekproeven is, dus hoe groter de deelsteekproeven zijn die je neemt, hoe meer de steekproefverdeling op de normaalverdeling gaat lijken, omdat de kans steeds groter is om meer 'winnaars' in de deelsteekproef te hebben. Er zit een mooi wiskundig iets achter met centrale limietstelling en zo, maar dat gaat mij allemaal te ver :-).

William Schokkelé · Answer 2 · 2017-05-11T08:49:06+0000

Beste Sofie

Eerst even melden dat ik meen een typo in de cursus te zien:

"We gaan ervan uit dat 28% nog nooit iets heeft gewonnen in een of andere loterij, 21% één keer, 16% twee keer, 12% drie keer, 8% vier keer, 6% vijf keer, minder dan 10% vaker dan vijf keer en maar 0.2% vaker dan tien keer. Het histogram van deze populatieverdeling zou er dan zo uitzien"

Die 10% moet volgens mij 1% zijn.

Maar verder, als antwoord op je vraag:

Stel je aan 1 persoon (n=1) de vraag: "hoeveel keer won je een lotterij?", dan krijg je de verdeling volgens de eerste grafiek, met de werkelijke, individuele verdelingen hoeveel keer iemand een lotterij heeft gewonnen. Waarbij dus 28% aangeeft nooit te hebben gewonnen en dus de numerieke weergave van die winstpercentages.
In grafiek 1 hebben we dus aan iedereen individueel gevraagd of ze een lotterij gewonnen hebben, hebben we geteld hoe vaak elk antwoord voorkwam en hebben die aantallen in grafiek gezet.

Bevolking Nederland = 16.940.000
28% = 4.743.200, 21% = 3.557.400, ...

Stel je diezelfde vraag aan 2 personen, dan krijg je een "normaler verdeelde" grafiek:
1 persoon heeft misschien nog nooit gewonnen maar een andere misschien reeds 1x (slechts 28% heeft nog nooit gewonnen, dus 72% al minstens 1x)

Het gemiddelde van hun antwoorden vormt nu een datapunt.

De combinatie van 2 mensen die nog nooit wonnen is moeilijker te vinden dan 1 persoon die nog nooit won: de verdeling wordt "normaler".

Stel je die vraag nu veel keren aan groepjes van 2 personen, en je neemt telkens het gemiddelde, dan bekom je veel nieuwe datapunten.
Ga je nu tellen hoeveel keer die antwoorden voorkwamen dan bekom je grafiek 2.

Stel je dezelfde vraag aan 3 personen, je berekent hun gemiddeld aantal "lotterijoverwinningen" en je gaat achteraf tellen hoeveel keer elk gemiddelde voorkomt, dan is de verdeling nog "normaler".

Stel de dezelfde vraag aan 1000 personen dan wordt de verdeling van het aantal keer dat een gemiddelde voorkomt zo goed als perfect normaal.

Belangrijk hierbij is dat het absoluut niet zo is dat hoe meer mensen we bevragen, hoe meer kans je hebt om de lotterij te winnen :)
De waarden in de grafieken geven aan hoe veel keer een gemiddelde voorkomt.

Merk ook duidelijk op dat de groene "normale" lijn in de grafiek een toppunt heeft dichter bij de niet-winnaars dan de veelwinnaars.
In een steekproef met 1000 mensen worden dus de antwoorden van 1000 personen gemiddeld: hierbij vinden we niet-winaars, winnaars en veelwinnaars. Door van deze resultaten telkens het gemiddelde te berekenen worden de weinige veelwinnaars zo goed als betekenisloos.

Dit is mijn visie, hopelijk is die correct en schept die voor jou wat duidelijkheid.

Categorieën

Hoe kan een scheve verdeling naar een normaalverdeling evolueren?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Hoe kan een scheve verdeling naar een normaalverdeling evolueren?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.