Beste Sofie
Eerst even melden dat ik meen een typo in de cursus te zien:
"We gaan ervan uit dat 28% nog nooit iets heeft gewonnen in een of andere loterij, 21% één keer, 16% twee keer, 12% drie keer, 8% vier keer, 6% vijf keer, minder dan 10% vaker dan vijf keer en maar 0.2% vaker dan tien keer. Het histogram van deze populatieverdeling zou er dan zo uitzien"
Die 10% moet volgens mij 1% zijn.
Maar verder, als antwoord op je vraag:
Stel je aan 1 persoon (n=1) de vraag: "hoeveel keer won je een lotterij?", dan krijg je de verdeling volgens de eerste grafiek, met de werkelijke, individuele verdelingen hoeveel keer iemand een lotterij heeft gewonnen. Waarbij dus 28% aangeeft nooit te hebben gewonnen en dus de numerieke weergave van die winstpercentages.
In grafiek 1 hebben we dus aan iedereen individueel gevraagd of ze een lotterij gewonnen hebben, hebben we geteld hoe vaak elk antwoord voorkwam en hebben die aantallen in grafiek gezet.
Bevolking Nederland = 16.940.000
28% = 4.743.200, 21% = 3.557.400, ...
Stel je diezelfde vraag aan 2 personen, dan krijg je een "normaler verdeelde" grafiek:
1 persoon heeft misschien nog nooit gewonnen maar een andere misschien reeds 1x (slechts 28% heeft nog nooit gewonnen, dus 72% al minstens 1x)
Het gemiddelde van hun antwoorden vormt nu een datapunt.
De combinatie van 2 mensen die nog nooit wonnen is moeilijker te vinden dan 1 persoon die nog nooit won: de verdeling wordt "normaler".
Stel je die vraag nu veel keren aan groepjes van 2 personen, en je neemt telkens het gemiddelde, dan bekom je veel nieuwe datapunten.
Ga je nu tellen hoeveel keer die antwoorden voorkwamen dan bekom je grafiek 2.
Stel je dezelfde vraag aan 3 personen, je berekent hun gemiddeld aantal "lotterijoverwinningen" en je gaat achteraf tellen hoeveel keer elk gemiddelde voorkomt, dan is de verdeling nog "normaler".
Stel de dezelfde vraag aan 1000 personen dan wordt de verdeling van het aantal keer dat een gemiddelde voorkomt zo goed als perfect normaal.
Belangrijk hierbij is dat het absoluut niet zo is dat hoe meer mensen we bevragen, hoe meer kans je hebt om de lotterij te winnen :)
De waarden in de grafieken geven aan hoe veel keer een gemiddelde voorkomt.
Merk ook duidelijk op dat de groene "normale" lijn in de grafiek een toppunt heeft dichter bij de niet-winnaars dan de veelwinnaars.
In een steekproef met 1000 mensen worden dus de antwoorden van 1000 personen gemiddeld: hierbij vinden we niet-winaars, winnaars en veelwinnaars. Door van deze resultaten telkens het gemiddelde te berekenen worden de weinige veelwinnaars zo goed als betekenisloos.
Dit is mijn visie, hopelijk is die correct en schept die voor jou wat duidelijkheid.