Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom worden density plots weergegeven in oppervlakte en een oppervlakte van 1? 1 wat?

0 leuk 0 niet-leuks
gevraagd 2 december 2016 in Inleiding Data Analyse (IDA) door TiffanyOW (470 punten)

1 Antwoord

1 leuk 0 niet-leuks

Je kunt de 1 zien als een proportie; dus als 100%. De helft van de densityplot heeft een oppervlakte van 50% van de totale oppervlakte of .5 van 1. Dit is handig, omdat kansen altijd tussen 0 en 1 in liggen. Op die manier kun je met kansen rekenen. Deze kansrekening ligt aan de basis van de statistiek.

Wat voorbeelden.

Als er elke dag een kans van 10%, dus .1, is dat het regent, dan geldt dat als je twee willekeurige dagen kiest, de kans dat het op beide dagen regent gelijk is aan .1 * .1 = .01 oftewel 1%. De kans dat het op een van beide dagen regent is .1 + .1 = .2 = 20%.

[UPDATE: dit ligt iets ingewikkelder; zie hier]

Omdat je deze kansen (tussen 0 en 1) kunt optellen is het handig dat densityplots altijd een oppervlakte van 1 hebben. Daarnaast is het overigens een simpele definitie: dit is hoe een densityplot is gedefinieerd. Het had ook 2 of 89 kunnen zijn; maar dat was onhandig geweest, want dan kon je er niet zo makkelijk mee rekenen.

Een densityplot is dus eigenlijk een gelijkmatig verlopender versie van een histogram: een alternatieve manier om een verdeling weer te geven, die het meest gebruikt wordt bij verdelingen die uit oneindig veel datapunten bestaan.

Neem bijvoorbeeld de steekproevenverdeling van het gemiddelde. Die bestaat per definitie uit oneindig veel gemiddelden. Hoewel je dus een histogram kunt maken van 100 000 van die oneindig gemiddelden, en hoewel dat histogram een goede weergave geeft van de steekproevenverdeling, klopt hij eigenlijk niet. Want elk balkje representeert een aantal datapunten. Een eindig aantal datapunten. En er zijn een eindig aantal balkjes. Dus het histogram als geheel representeert ook slechts een eindig aantal datapunten.

Een densityplot is wel een volledige accurate weergave van de steekproevenverdeling, want deze bestaat niet uit balkjes, maar uit een ononderbroken, continue lijn. Omdat deze verdeling uit oneindig veel datapunten bestaat, kun je niet, zoals bij een histogram, het aantal datapunten op de Y-as zetten. In plaats daarvan moet je kiezen hoe je de Y-as dan wel bepaald. Bij densityplots is de afspraak dat de Y-as zo wordt bepaald dat de oppervlakte van de gehele plot precies 1 is.

Daardoor correspondeert een deel van de oppervlakte van de densityplot met de kans op de betreffende waarde. Bovendien zijn densityplots van verschillende verdelingen zo altijd te vergelijken: ze hebben immers dezelfde oppervlakte. Dezelfde hoeveelheid oppervlakte is dus verdeeld over de breedte en hoogte, over de topjes en scheefheid, van elke verdeling.

beantwoord 3 december 2016 door gjp (69,780 punten)
...