Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Hoe kan ik bij thema 2.3 van IDA beschrijven dat elke beschrijvingsmaat afkomstig is uit een steekproevenverdeling?

0 leuk 0 niet-leuks
gevraagd 29 november 2017 in Inleiding Data Analyse (IDA) door Demelza (180 punten)

1 Antwoord

0 leuk 0 niet-leuks
Een beschrijvingsmaat is een getal dat wordt berekend op basis van de datapunten uit een steekproef van een bepaalde grootte (bijv. het gemiddelde door (zeg 20) datapunten op te tellen en te delen door het aantal datapunten (dan dus ook 20)).

Voor elke beschrijvingsmaat kan ik uit de populatie oneindig vaak (maar zeg 1000) steekproeven van (zeg 20) datapunten trekken en steeds de bijbehorende beschrijvingsmaat uitrekenen.

Aldus krijg ik 1000 beschrijvingsmaten (één behorend bij elke steekproef met 20 datapunten). Van die 1000 beschrijvingsmaten kan ik een histogram maken (door ze te ordenen, in opeenvolgende grootteklassen te verdelen, en de frequentie aan te geven). Dit is een benadering van de steekproevenverdeling van die beschrijvingsmaat (indien de grootteklassen en frequenties zodanig zijn genormeerd dat de totale oppervlakte gelijk aan 1 is). Als je niet 1000 steekproeven van 20 datapunten neemt, maar oneindig veel, dan heb je de daadwerkelijke steekproevenverdeling.

Indien aldus de steekproevenverdeling van de beschrijvingsmaat is gebaseerd op oneindig veel steekproeven (van 20 in dit geval) uit de populatie, dan moet het zo zijn dat de beschrijvingsmaat die wordt berekend op basis van een willekeurige steekproef (van 20 in dit geval) ook al is weergegeven in het histogram en dus (anders gezegd) afkomstig is uit die steekproevenverdeling.
beantwoord 30 november 2017 door 85186EMV! (810 punten)

Uitstekende uitleg, niets aan toe te voegen.

Ok, misschien een ding :-) Meer om zeker te weten dat dit duidelijk is.

Die theoretische steekproevenverdeling bestaat voor alles dat je uit een steekproef uit kunt rekenen. Niet alleen beschrijvingsmaten: ook maten voor samenhang, zoals je ze later in deze cursus tegenkomt, en bijvoorbeeld factorladingen, zoals je ze veel later in het curriculum tegenkomt.

Dus, als je een steekproef neemt, dan komt elk datapunt uit de populatieverdeling. Noodzakelijkerwijs, want die populatie is gedefinieerd als oneindig groot: die bevat alle onderzoekseenheden die je in je steekproef zou kunnen krijgen. En dus alle mogelijke te meten waarden, oftwel alle mogelijke datapunten die je zou kunnen vinden.

Dus, zo gauw je een populatie definieert, bestaat zo'n populatieverdeling.

Nou, zo gauw je ook een steekproefomvang definieert, bestaat voor alles dat je uit een steekproef van die omvang zou kunnen berekenen, een steekproevenverdeling.

Die volgt immers uit de combinatie van die twee: van de populatieverdeling, met alle mogelijke datapunten, en de steekproefomvang, waarmee je willekeurig een gegeven aantal datapunten uit die populatieverdeling 'trekt'.

Dus, zo gauw je een populatie definieert en een steekproefomvang kiest, staat al vast welke mogelijke gemiddelden je kunt vinden, en hoe groot de kans op elk gemiddelde is. Die kansverdeling (de kans op elk gemiddelde) heet de steekproevenverdeling. En die bestaat niet alleen voor het gemiddelde, maar ook voor de standaarddeviatie, de variantie, de variatie, de scheefheid, de mediaan, de modus, de kurtosis ('spitsheid'), de modulariteit ('toppigheid', oftewel, de waarde van de Dip Test), en voor de samenhangsmaten zoals de correlatie, de regressiecoefficient, $R^2$, Cohen's $d$, en $\omega^2$ en $\eta^2$. Bovendien geldt dit ook voor de $F$-waarde, de $t$-waarde, en de $p$-waarde die je met die $F$-verdeling en $t$-verdeling uit kunt rekenen.

Voor al die schatters/maten geldt dat alle mogelijke waarden die je zou kunnen vinden, en de kans op elk van die waarden, vast staan op het moment dat je een populatie kiest en een steekproefomvang definieert. En de verdeling die de mogelijke waarden en de kans op elke waarde beschrijft heet de steekproevenverdeling.

En die steekproevenverdelingen volgen wiskundige wetten, wat handig is, want dat heeft het mogelijk gemaakt voor ons (i.e. 'de mensheid' of 'de wetenschap', of nog accurater, 'de statistiek') om in kaart te brengen hoe die steekproevenverdelingen er precies uitzien. Die verdelingsvormen zijn bijvoorbeeld de $t$-verdeling: dat is de steekproevenverdeling van zowel regressiecoefficienten als van het verschil tussen twee gemiddelden. Een andere verdeling is de verdeling van Pearson's $r$, de correlatiecoefficient (hoewel je die ook om kunt rekenen om weer de $t$-verdeling te krijgen, wat ze vroeger deden, toen de berekeningen die nodig zijn om de Pearson's $r$-verdeling op te stellen nog niet haalbaar waren zo zonder computers).

Deze steekproevenverdelingen zijn de verdelingen waar je altijd mee werkt, als je statistiek bedrijft.

...