Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

hoe krijg ik aantallen outliers per variabele inzichtelijk?

0 leuk 0 niet-leuks

Hoe krijg ik inzichtelijk hoeveel outliers (aantal+percentage) ik per variabele heb in mijn dataset, zoals bijvoorbeeld hieronder? 

gevraagd 22 april in Experimenteel Onderzoek (PB0402 en S05281) door havvadebruin (220 punten)
Ik heb moeite in te schatten waar je precies op vastloopt en wat je wilt weten. Als ik naar de tabel kijk zie ik het aantal outliers (berekend als 1.5 keer de interkwartielafstand of meer van de mediaan). Dan lijk je het overzicht al te hebben al is 1.5 een streng criterium.

Waarom is dit overzicht voor jou niet voldoende?
Hi Ron,

Dat overzicht was een voorbeeld, niet mijn eigen data. Maar ik heb inmiddels de betreffende informatie boven tafel weten te krijgen via Z-scores. Alsnog bedankt voor de reactie.

Mvg, Havva

p.s. puur voor mijn kennis: hoe krijg je zo'n mooi overzichtje met aantallen en percentages van de outliers per variabele?

1 Antwoord

0 leuk 0 niet-leuks
 
Beste antwoord

Het hangt van de methode af, en er zijn vele wegen naar Rome. Wat ik zelf het makkelijkst vind is het volgende:

Voor outliers vanaf het gemiddelde:

Bereken z-scores automatisch via:

  1. Analyse - Descriptive Statistics -> Descriptives
  2. Kies de relevante variabelen
  3. Vink daar het vakje 'save standardized values as variabeles
  4. Druk Ok voor direct resultaat of Paste (en run dan de syntax)
  5. Ga naar Analyse - Descriptive Statistics -> Frequencies
  6. Selecteer de nieuwe z-score-variabelen
  7. Let erop dat het vakje 'Display Frequency Tables' aan staat
  8. Druk Ok of Paste
  9. Lees in de tabel vervolgens af hoeveel getallen een waarde extremer dan 3.29 hebben (of -3.29). Dit zijn z-scores met een p < .001

Voor outliers vanaf de mediaan:

  1. Analyse -> Descriptive Statistics -> Frequencies
  2. Vraag bij Statistics om Quartiles
  3. In de output kun je de interkwartielafstand bepalen door Q3 van Q1 af te trekken (in de tabel herkenbaar als het 25e percentiel (Q1) en het 75e (Q3).
  4. Voor lage outliers doe je Q1 - 3*interkwartielafstand. 
  5. Voor hoge outliers doe je Q3 + 3*interkwartielafstand
  6. In de frequentietabel kun je tellen hoeveel getallen erboven en onder vallen.
beantwoord 23 april door Ron Pat-El (39,900 punten)
geselecteerd 23 april door havvadebruin
Dankjewel Ron.
...