Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Ik begrijp niet waardoor de grenzen van de verticale lijn in een boxplot bepaald worden.

Wat ik bedenk:
Q1 is per definitie de waarde waarop 25% van de waarden in de dataset "kleiner of gelijk aan" zijn dan die waarde
Q2 is per definitie de waarde waarop 50% van de waarden "groter of gelijk aan" of "kleiner of gelijk aan" zijn dan die waarde.
Q3 is per definitie de waarde waarop 25% van de waarden "groter of gelijk aan" zijn dan die waarde.
Q3 is de bovenste lijn van de rechthoek, Q1 is de onderste lijn van de rechthoek. Per definitie zitten hiertussen 50% van alle waarden.
25% van de waarden liggen boven de box en zijn dus groter dan Q3.
25% van de waarden liggen onder de box en zijn dus kleiner dan Q1.

Als die verticale lijn nu aangeeft "tussen welke waarden de hoogste en de laagste 25% van de datapunten ligt", wat betekent dat dan?

Zoals ik deze zin in eerste instantie lees, klinkt dat alsof het om Q1 en Q3 zelf gaat, maar die lijn lijkt per definitie buiten de box te moeten liggen, dus dat is het niet.
Vervolgens dacht ik, ze zullen bedoelen aan beide zijden 25% en dus "de volledige" dataset? Maar hoe kan het dan dat er toch nog "outliers" buiten die lijn vallen?
Daarom bedacht ik me dat die 25% misschien verdeeld moet worden over de beide zijden en is dat dan aan elke zijde 12.5%? Dat zou kunnen verklaren waarom er "outliers" buiten die lijn vallen, maar dat lijkt niet te zijn wat er letterlijk geschreven staat.

Vermoedelijk zit er ergens een redeneerfout maar ik vind ze niet.
Wie kan het mij duidelijker maken?
in Inleiding Onderzoek (OIO, PB02x2; was Inleiding Data Analyse, IDA) door (210 punten)

1 Antwoord

0 leuk 0 niet-leuks

In een boxplot is de middelste lijn de mediaan (oftewel het tweede kwartiel) en de lijnen boven en onder zijn respectievelijk het eerste en het derde kwartiel. Het eerste kwartiel is de waarde die de laagste 25% van de waarden onderscheidt van de hogere waarden. Het derde kwartiel is de waarde die de hoogste 25% van de waarden onderscheidt van de lagere waarden. 

Het verschil hiertussen is de zogenaamde interkwartiel afstand, die in thema 3 behandeld werd. Dit is dus een maat voor spreiding en zegt iets over hoeveel verschil er zit in de datapunten.  

Je moet het dus zien als 0%, 25%, 50%, 75% en 100% van de data. In die laagste en hoogste 25% kunnen dus nog outliers zitten.

door (41.7k punten)

Dit antwoord is geen antwoord op mijn vraag.
Wat u beschrijft zijn de HORIZONTALE lijnen (van de rechthoek) die begrijp ik, zoals ik dacht ik ook duidelijk gemaakt had bij de start van mijn vraag.


Wat ik niet begrijp is wat de grenspunten zijn van de VERTICALE LIJN 

In het online "tekstboek" staat daarover letterlijk: 
"De verticale lijnen geven aan tussen welke waarden de hoogste en de laagste 25% van de datapunten ligt"
en verder staat er:
"Als er geen outliers weergegeven worden, betekent dit dat je het einde van de verticale lijn kunt interpreteren als het minimum en maximum van de data". 

Wat ik niet begrijp:
Als die verticale lijn de 25% "hoogste" datapunten weergeeft, moet die lopen van Q0 tot Q1 (de eerste horizontale lijn)
OF 
Als die verticale lijn de 25% "laagste" datatpunten weergeeft, moet die lopen van Q3 (de derde horizontale lijn) tot max.
Die lijn moet dan per definitie het minimum en maxium van de data bevatten.
Hoe kan een "outlier" dan überhaupt ooit buiten die lijn liggen. 

 

Dus vermoedelijk zijn de grenspunten van die lijn andere dan wat ik concludeer uit de tekst. 
Waar zit de fout in mijn conclusie?

Ik heb ondertussen maar zelf via google een antwoord gezocht doch weliswaar niet gevonden.

Want wat blijkt die verticale lijn (of blijkbaar whisker in het Engels), wordt bepaald volgens een conventie waarvan Wikipedia stelt dat het correct zou zijn om die in de uitleg bij de boxplot te verduidelijken.

Wat blijkt, mijn conclusie uit jullie geschreven tekst is juist. Als jullie werkelijk de bovenste en onderste 25% van uw dataset aanduiden, dan moeten de outliers per definitie in die lijn zitten.

Het feit dat er outliers zichtbaar zijn, buiten die lijn, maakt duidelijk dat jullie niet volgens de,  door jullie zelf in de tekst beschreven, conventie de figuren opstellen, maar een andere conventie gebruiken.
Alleen verduidelijken jullie niet volgens welke conventie jullie die verticale lijn dan wel bepalen.

Een nieuwe vraag dus, in deze cursus, voor dit vak, volgens welke conventie wordt die VERTICALE lijn opgesteld?

- worden outliers per definitie, altijd uitgesloten?
- gaat het om p10 en p90 ?
- of gaat het eerder om p5 en p95 ?
- of volgen jullie (computerprogramma's) nog een andere "standaard" en welke is dat dan?
Als je kijkt naar figuur 10.11 uit hoofdstuk 10 Verdelingsvormen en maten dan zie je daar drie boxplots. Op de y-as (de vertikale lijn dus) zie je de gestandaardiseerde scores van een willekeurige variabele. Het gemiddelde is dus nul en alle scores zijn uitgedrukt in hoeveel standaarddeviaties ze van het gemiddelde afliggen.

Omdat de middelste figuur een normaalverdeling bevat zie je daar duidelijke dat hier de bijbehorende regels van toepassing zijn, nl. dat 95% van alle waarden binnen +/- 2 SD vallen. De andere 2 figuren zijn niet normaal verdeeld en daarom ziet het er daar "minder mooi" uit.

Kwartiel 1 en 3 zijn niet de laagste en hoogste 25% maar correcter is de scheiding tussen de laagste 25 en hoger en de hoogste 25 en lager. Dus tussen kwartiel 1 en 3 ligt 50% van de scores.

Vanaf dat blokje dat 50% van de scores bevat wordt een lijn getrokken naar boven en naar onder, dat betreffen de bovenste en onderste 25% van de scores. Hoe dat met software wordt weergegeven is dat er dus een lijntje getrokken wordt en als er een of meerdere scores zijn die afwijken van de rest dan worden die met bolletjes aangegeven.

Vanaf welke afwijking de bolletjes worden weergegeven ligt aan de software. De figuren in het boek zijn gemaakt met R en volgens mij staat het daar standaard op 2 SD (zoals je ook uit de figuren kunt aflezen). Vaak hebben we echter een strengere definitie van outlier, bijv. 3 SD.

Wat je vervolgens doet met outliers is weer een ander verhaal. Meestal is het goed om spaarzaam met je data te zijn en zoveel mogelijk datapunten te behouden. Vaak wordt er gekeken of de exterme scores logisch zijn of onwaarschijnlijk en in dat laatste geval worden ze wel vaak verwijderd.

Beantwoord dit je vragen?
gedeeltelijk wel, die hele uitleg over wat die box nu eigenlijk is en wat dat betekent heb ik echt wel begrepen, het probleem stelt zich voor de verticale lijn die eraan toegevoegd wordt.

Mijn conclusie na deze uitleg, is dat de zin in het boek simpelweg fout is. De huidige zin slaat het hele concept van outliers buiten die lijn over in de basisdefinitie van de  verticale lijn, terwijl de eindpunten van de verticale lijn net  volledig bepaald worden door die outliers en hoe ze gedefinieerd worden

Zoals het er nu geschreven staat, moeten de outliers per definitie op de lijn liggen en dat blijkt dus feitelijk fout te zijn want in alle voorbeelden in figuur 10.11 liggen ze erbuiten wat blijkbaar zo hoort, maar wat ik niet kon begrijpen uit de tekst van het handboek dat het mij glashelder zou moeten maken.

Een betere zin zou kunnen zijn  "de uiterste 25% waarden aan beide zijden van de box MET UITSLUITING VAN eventuele outliers" al zijn er tal van alternatieven te bedenken.

Die feitelijke fout veroorzaakte ondertussen al uren hoofdbreken aan deze zijde in de veronderstelling dat jullie een boek schreven om basis-statistiek behapbaar te maken voor iedereen en ik er dus van uitging dat het probleem bij mij moest liggen en ik toch ergens iets verkeerd begreep.

Ik hoop dat jullie minstens overwegen om jullie "groeiend" tekstboek aan te passen, kwestie van collega's na mij niet voor hetzelfde raadsel en bijkomende frustratie te plaatsen.
...