Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Kun je zonder consequenties cases in je databestand verwijderen an de hand van de MD en de criteria van Field?

0 leuk 0 niet-leuks
Ik ben momenteel bezig met de eindopdracht van cross - sectioneel onderzoek en heb bij 6.1.2 de Malahanobis Distance opgevraagd om outliers te traceren. Wanneer ik de criteria van Field hanteer, moet ik 20! respondenten verwijderen (df=29, MD> 49.50). Dit lijkt me niet helemaal juist of is dat geen probleem. Is er nog een ander criteria om te overwegen voordat ik cases uit het databestand haal? Ik heb ook de probality berekend. Als ik daar het criterium < .001 hanteer, kan ik iets minder cases verwijderen.
gevraagd 16 juni in Cross-sectioneel Onderzoek (PB0802) door Jocelijn (120 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Je kunt het beste p < .001 hanteren (zie thema 6.2). Overigens is het ook zinvol om naar het patroon in afstanden te kijken. Als daar cases tussen zitten die veel groter zijn dan de andere afstanden, is dat een reden om die te verwijderen. Maar p < .001 is een goed begin.

MvG, Rolf
beantwoord 17 juni door Rolf van Geel (10,200 punten)
1 leuk 0 niet-leuks

Om toe te voegen aan het heldere antwoord van Rolf, wil ik ingaan op het 'geen consequenties'.

Outliers zijn een probleem dat zich opsplitst in twee specifieke van elkaar te onderscheiden oorzaken. Ieder heeft een eigen 'gevolg'. Wat beide facetten met elkaar gemeen hebben is dat er geen enkele 'goede' manier is om met ze om te gaan. Om deze reden geven wij in onze cursussen niet een vaste methode mee om met extreme cases om te gaan. Vanaf de masterfase en de praktijk zullen mondjesmaat werkwijzen geintroduceerd worden die zinvol kunnen zijn. Zondermeer outliers verwijderen is eigenlijk altijd een probleem, want het introduceert bias. 

Dus, ongeacht het soort outlier: het is een situatie van damned if you do, damned if you don't. Ze in de analyse laten introduceert bias doordat een select aantal datapunten een disproportionele invloed hebben op de conclusies. Ze verwijderen introduceert bias doordat er arbitraire grenzen opgelegd worden aan de populatiescores, wat een selection bias tot gevolg heeft.

Dat gezegd hebbende, er zijn twee globale typen:

a) puur statistische outliers. Dit zijn waarden die enkel extreem zijn omdat ze relatief aan de overige observaties extreem zijn. Dit kan univariaat het geval zijn (zoals zichtbaar in boxplots, of via z-scores) of multivariaat (vaak zichtbaar gemaakt met mahalanobis-afstanden of Cook's distance). Het helpt om met histogrammen, o.i.d. naar de data te kijken. Puur statistische outliers kunnen het gevolg zijn van:

  1. scheefheid: door heftige scheve verdeling van data kan het zijn dat de paar datapunten die realistisch zijn, maar afwijkend, ineens outliers worden. Bij scheve data kun je beter geen z-scores gebruiken; deze zijn gevoelig voor scheefheid (gemiddelde is dan geen goede centrummaat) en kun je beter op boxplots (mediaan) vertrouwen.
  2. de wijze van toetsing. Alle significantietoetsing is op een of andere manier gevoelig voor steekproefgrootte. Zodra N toeneemt (bijvoorbeeld groter is dan 250) dan gebeurt het al snel dat tamelijk triviale afwijkingen significante outliers worden. 

Het is zaak om eerst uit te sluiten dat je outliers puur 'statistisch' outliers zijn. Want enkel het volgende type zijn echte outliers:

b) outliers die een syptoom zijn van geschonden validiteit. Het idee van een outlier is dat deze geen accurate weergave van de de waarden van het doelconstruct in de populatie is. Als je onderzoek doet naar adolescenten dan is een proefpersoon met de leeftijd van 54 een echte outlier, omdat iemand van 54 geen adolescent meer genoemd kan worden. Ondanks dat 54 een 'echte' leeftijd is die iemand kan scoren, behoort deze persoon niet tot de doelpopulatie en kan zondermeer uit de data verwijderd worden. 

Dit is vaak een lastig soort outlier om te identificeren. Als je onderzoek doet naar mensen met milde depressieklachten, dan is iemand met een klinische depressiescore wellicht een outlier die je veilig kunt verwijderen. Zelfs als deze statistische niet zou outlien. Het gaat hier niet meer om disproportionele invloed op de conclusies, maar gewoon over een waarneming die niet waargenomen had moeten worden, alsware het een vuiltje op de lens.

Dus, een aantal richtlijnen:

  1. nooit blind op p-waarden varen: altijd naar de data kijken. Snap je outliers
  2. niet alle outliers zijn hetzelfde; soms kan het zijn dat de outliers de enige zinvolle data zijn. Als je onderzoek doet naar klinische depressie en slecht 4 mensen in een dataset van 200 zijn klinisch depressief, en de rest slechts zeer mild.... dan zijn die 4 misschien wel outliers als je ze analyseerd, maar ze zijn gelijk ook de enigen die in je steekproef horen! 
  3. In onze cursussen maakt het niet uit wat je met de data doet, zolang je maar transparant maakt hoe je de outliers hebt gedetecteerd (methode, criterium), en een overwogen keuze maakt
  4. Doe altijd je analyse tweemaal: met en zonder je outliers. Verschillen de uitkomsten niet? Mooi. Maak een voetnoot in je verslag dat je een tweede analyse gedaan hebt zonder outliers, geen verschil vond, en daarom met de outliers door bent gegaan. Wel verschil? Pech. Kies op je gevoel welke variant het beste je populatie beschrijft en neem de ander op in de voetnoot.

beantwoord 17 juni door Ron Pat-El (39,900 punten)
...