Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waar komen de waarden in een Q-Q plot vandaan?

0 leuk 0 niet-leuks
Uit de informatie in het digitale werkboek begrijp ik dat Q-Q plots worden gebruikt om de datareeks te vergelijken met een normaalverdeling en vanuit die vergelijking te bepalen of de datareeks vanuit de steekproef ook normaal verdeeld is. Ik begrijp ook dat je een diagonale lijn moet krijgen bij een normale verdeling, omdat de verdeling dan overeenkomt. De stap van de dataset en de normale verdeling naar vergelijkbare waarden die in de Q-Q plot kunnen worden verwerkt, begrijp ik echter niet. Kan iemand mij, mogelijk aan de hand van een voorbeeldreeks, uitleggen welke waarden ik moet gebruiken en hoe ik aan die waarden kom?
gevraagd 28 november 2018 in Inleiding Data Analyse (IDA) door SanneC (300 punten)

2 Antwoorden

0 leuk 0 niet-leuks

Dit gaat buiten de examenstof, maar ik zal het toch kort even uitleggen. Als je R opent kun je 'meewerken'.

We genereren een random reeks uit de normaalverdeling van 5 cijfers:

set.seed(1);
(x<-rnorm(5));
[1] -0.6264538  0.1836433 -0.8356286  1.5952808  0.3295078
ggqq(x);

De geobserveerde kwantielen zijn gewoon de waarden die we vonden. Dit kun je zien door een lijn toe te voegen voor het eerste datapunt:

ggqq(x) + geom_hline(yintercept=x[1])

(de x en y-as zijn omgewisseld om de default bij ggqq is om de geobserveerde kwantielen op de X-as te plotten; daarom geeft 'hline' een verticale lijn; de x-as is de y-as)

Op de y-as staat de waarde die je zou verwachten als de verdeling precies normaal zou zijn geweest. Dit kun je zien door op de y-as een horizontale lijn toe te voegen op het gemiddelde:

ggqq(x)+ geom_hline(yintercept=x[1]) + geom_vline(xintercept=mean(x))

Als dit een perfecte normaalverdeling was geweest, dan had dat middelste datapunt de waarde van het gemiddelde gehad. Dan had hij dus gelegen waar de horizontale lijn de diagonale lijn kruist.

Je ziet zo duidelijk dat dat laatste punt (1.5952808) veel te hoog is in vergelijking met wat je zou verwachten volgens de normaalverdeling. Een punt dat op 1.5952808 ligt had verder naar links moeten liggen op de x-as. De andere punten liggen wel redelijk in de buurt van wat je zou verwachten op basis van de perfecte normaalverdeling.

beantwoord 30 november 2018 door gjp (66,540 punten)
0 leuk 0 niet-leuks

Als je helemaal hardcore bent, dan kun je dit ook 'met de hand' maken. 

Stap 1: geef ieder datapunt in je variabele een eigen kwantiel

Stap 2: Pak een normaalverdeling uit de kast

Stap 3: Verdeel deze normaalverdeling in evenveel gelijkverdeelde kwantielen als de data in stap 1 (dus, als je variabele uit 20 waarnemingen bestaat, dan verdeel je de normaalverdeling in 20 gelijke stukken op).

Stap 4: Q-Q plot!: Zet de kwantielen van de normaalverdeling op de X-as, en de kwantielen van de datapunten op de y-as.

Stap 5: enjoy the magic: als de data perfect normaal verdeeld is, dan horen je punten een rechte lijn te volgen. De meer verdeling van de data afwijkt van de ideale verdeling op basis van een normaalverdeling, des te minder zullen de punten een rechte lijn volgen.

beantwoord 30 november 2018 door Ron Pat-El (42,380 punten)
...