Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

over density plots; bij figuur 2.2.10 word beschreven dat de totale dichtheid 1 is, hoe kan de maximale dichtheid van het derde figuur dan 1,6 zijn?

0 leuk 0 niet-leuks

bij figuur 2.2.10 staat de volgende uitleg:

"Bij een hele ‘brede’ variabele, zoals leeftijd (die immers van 0 0 tot 99 99 loopt), is de maximale dichtheid relatief laag; de totale dichtheid van 1 moet immers over een hoop getallen worden verdeeld. Bij een smallere schaalverdeling wordt de maximale dichtheid al wat hoger: in het derde plotje in het voorbeeld hierboven is de maximale dichtheid ongeveer 1.6"

ik begrijp dat de totale oppervlakte 1 is, maar hoe kan een maximale dichtheid dan 1,6 zijn? als de breedte van de density plot van -1 naar 3 is (dus 4 breed) en de density plot lijn niet hoger komt dan 0,4 in het desbetreffende grafiek.

gevraagd 30 november 2017 in Inleiding Data Analyse (IDA) door Amanda Bax (120 punten)

1 Antwoord

0 leuk 0 niet-leuks
Een uitstekende vraag. Het antwoord is intuitief te begrijpen door het plotje in allemaal vierkantjes te verdelen, bijvoorbeeld met een oppervlakte van van .01 (dus .1 breed en .1 hoog). Daarvan kun je er dan ongeveer 16 opstapelen in dat hoogste punt met die maximale dichtheid. Dan heb je dus 16 blokjes, elk met een oppervlakte van .01, dus samen .16. De rest van de densityplot is dan dus 1 - .16 = .84 blokjes groot.

(dit klopt natuurlijk niet helemaal exact als je het zou gaan uitproberen, maar het gaat om het idee :-))
beantwoord 4 december 2017 door gjp (70,250 punten)
Dank je wel Gjalt-Jorn, Helder antwoord en dit begrijp ik ook erg goed. Wat bij mij de verwarring heeft gebracht is dat als je de Y-as moet aanhouden de densityplot tot waarde 0.4 komt. Klopt het dat er een 2e Y-as zou moeten zijn met de density waardes?

Ik strugel ook met het zinnetje "....is de maximale dichtheid ongeveer 1.6". 

Als ik de uitleg goed begrijp had daar dus niet 1.6 moeten staan maar 0.16?

Ik liep hier ook tegenaan. En het is nu 2019! Zelfde vraag ook gesteld, maar nog geen antwoord ontvangen. Ook ik concludeer nu uit het antwoord van GJP dat de waarde foutief in de reader staat; moet blijkbaar niet 1,6 maar 0,16 zijn. Dat scheelt nogal wat.

@GJP: het zou fijn zijn als de reader wordt bijgewerkt.

groet Ilse

Sorry, die opmerking had ik gemist.

De uitleg in het materiaal en de uitleg hierboven kloppen allebei.

Als de max dichtheid 1.6 is, dan weet je nog niets over de breedte.

Als de breedte (hoeveel van de x-as die hoogte van 1.6 heeft) heel klein is, bijvoorbeeld .1, dan is de totale dichtheid die je krijgt dus .1 keer 1.6 = .16. Dan houd je dus nog .84 over aan 'dichtheid om te vergeven' in de rest van de density plot.

Het gaat om de oppervlakte van de densityplot, die is 1. Je kunt dus prima een densityplot hebben met een maximale dichtheid van 100.

Alleen, de breedte van die piek kan dan maximaal .01 zijn (want .1 * 100 = 1).

Als de maximale density .001 is, dan kan de X-as van 0 tot 1000 lopen (want .001 * 1000 = 1).

Momenteel loop ik ook tegen dezelfde vraag aan. Gaat het toch wel over het meest rechter plaatje in figuur 2.2.10? Het is een histogram met 1 datapunt, X-as waarde 1. Toegevoegde density plot in die figuur lijkt op dat specifieke datapunt niet hoger te komen als 0.4 of 0.5 in de Y-as "count". Het totale bereik op de X-as loopt van -1 naar 3. 4 eenheden (in de tekst wordt bij het refereren aan het voorbeeld gesproken over 2 eenheden, wat ik ook niet kan plaatsen). 

Het is me in ieder geval nog niet duidelijk hoe er nu precies op een dichtheid van 1.6 gekomen wordt bij die figuur. Met wat fantasie zou het er op kunnen lijken dat er gesproken wordt over het gedeelte onder de blauwe lijn, en dat de dichtheid/oppervlakte van dat gedeelte 1.6 is.  

Volgens mijn interpretatie van de theorie in de reader, en verdere uitleg op internet, zou de oppervlakte van het volledige gedeelte onder de blauwe lijn echter altijd 1 moeten zijn. Als je het volledige gedeelte selecteert, kijk je immers ook naar het totaal aantal datapunten. 

Ik vraag me dus toch af hoe er op een dichtheid van 1.6 gekomen wordt? Zou het iets moeten zijn wat zo af te lezen is uit de grafiek? Of is er een berekening die uitgevoerd moet worden? 

Daarnaast is het me ook niet duidelijk hoe dichtheid zich verhoudt tot de oppervlakte. In een eerder antwoord wordt beschreven dat de oppervlakte altijd 1 is, maar dat er daarbij prima een dichtheid van 100 kan zijn. In de reader wordt echter het volgende geschreven over dichtheid: 

"Bij een hele ‘brede’ variabele, zoals leeftijd (die immers van 00 tot 99 loopt), is de maximale dichtheid relatief laag; de totale dichtheid van 1 moet immers over een hoop getallen worden verdeeld."

Klopt het dan dat de dichtheid eigenlijk een soort percentage is van het totaal? En dat oppervlakte en dichtheid eigenlijk hetzelfde zijn? 

de uitleg van gjp klopt, maar de materie zelf is inherent tegenintuitief. Het probleem wat gjp aankaart staat op zich in het cursusmateriaal, maar je moet weten waarnaar je moeten zoeken om te begrijpen waarom met oppervlakten gewerkt wordt.

Interval of ratio variabelen zijn anders dan dobbelstenen of muntworpen. Een dobbelsteen of munt heeft een makkelijk telbaar aantal events. Een munt bijvoorbeeld heeft {kop, munt}. De kans op kop is dus bijvoorbeeld .5. Interval- of ratiovariabelen zijn vaak continu. Dit heeft tot gevolg dat een specifieke uitkomst niet noodzakelijkerwijs een mooi getal is, maar is iets met misschien oneindig veel decimalen. De kans op zo'n uiterst specifieke waarneming is dus oneindig klein.

Om deze reden kun je de kans op een event niet echt zinvol berekenen, maar slechts de kans over een range van events. Bijvoorbeeld de kans op waarden tussen 2 en 3. Om deze berekening uit te voeren moet je een stukje meetkunde toepassen: een oppervlakte wordt bepaald door lengte en breedte te vermenigvuldigen. Een dichtheid kun je dus zien als een onderdeel van een oppervlakte: hoeveel lengtemeters heb ik per breedtemeter? Hier dus: hoeveel 'succes' events heb ik per 'stukje X'.

Merk op dat de oppervlakteberekening eerst terug te brengen tot een ratio tussen lengte en breedte dat het bereken van de oppervlakte eenvoudiger wordt. Bijvoorbeeld:

Je hebt een schutting van lengte = 6m, breedte = 3m. De oppervlakte hiervan is 6x3=18 meter. We kunnen ook stellen: voor iedere meter in de breedte hebben we 6/3=2 meter in de lengte. De dichtheid (lengte per meter) = 2.

Deze dichtheid kun je dan omzetten naar een kans door de dichtheid te vermenigvuldigen met het 'verschil over X' (of beter: een verandering over X [delta(X)], de intervallengte).
Bedankt voor de uitleg en verduidelijking!

Ik denk dat het principe van dichtheid me nu wel duidelijk is: We hebben het over een bepaald stukje in de density plot, in deze specifieke casus, met een hoogte (maximale dichtheid) van 1.6, en als dat gedeelte maar 0,1 breed is dan hebben we het over een totale dichtheid van 0,16. Dus blijft er nog 0,84 aan dichtheid over om te verdelen.  

Het is me alleen nog niet helemaal duidelijk waar we dit nu visueel precies terug zien in de genoemde plot in deze casus uit de cursus. Maar wellicht is dat ook niet het meest belangrijke om mee te nemen uit het hele verhaal.
Precies! Dat is inderdaad de link tussen probability density en de probability.Al gaat het niet om het verdelen van dichtheid, maar om het verdelen van uitkomsten in de kansenruimte

In de plot is dit iets lastiger af te lezen, omdat de density plot geprojecteerd is op het histogram, en waardoor het niet zichtbaar is dat deze twee typen plots niet dezelfde y-as delen
...