Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Wanneer zijn Mahalanobis distance-waarden verdacht?

1 leuk 0 niet-leuks

Ik kom verschillende tabellen tegen met daarin verschillende waarden (bij dezelfde p-waarde, p < .001). Bij twee predictoren zou de kritieke waarde volgens Field (p. 898) 9.21 zijn, en volgens deze website (https://en.wikiversity.org/wiki/Mahalanobis%27_distance) 13.82 (zie de beschrijving hieronder). Dat verschilt nogal van elkaar. Hoe komt dit verschil? Is het 'maar net' welke waarde je hanteert (conservatiever bijv.)? En welke kan ik het beste aanhouden? Field heb ik nu aangehouden, omdat dit ons leerboek is, maar dat vind ik zelf nogal een rare reden.

Ik ben overigens op internet gaan zoeken, omdat in opdracht 6.1.1. staat 'In geval van 10 items zijn Mahalanobis waarden groter dan 29.59 verdacht (Cf, kritieke X​2​(10) = 29.59'. Maar ik kan deze waarden nergens vinden. Niet in Field en niet op internet. Ik heb dus het gevoel dat ik iets niet goed begrijp. ps. De syntax bij deze opdracht doet het niet.

informatie van bovengenoemde website:

A maximum MD larger than the critical chi-square value for df = k (the number of predictor variables in the model) at a critical alpha value of .001 indicates the presence of one or more multivariate outliers.

df

Critical value

2

13.82

3

16.27

4

18.47

5

20.52

6

22.46

7

24.32

8

26.13

9

27.88

10

29.59

gevraagd 19 juli 2017 in Psychologisch Survey (PS) door Ivonne Lipsch (2,210 punten)
bewerkt 24 juli 2017 door Ivonne Lipsch

2 Antwoorden

1 leuk 0 niet-leuks

Hi Ivonne,

Ik weet ook niet waar ik de critical values van de Mahalanobis kan vinden. Wel hoe je het kunt beoordelen met de p-value. Ik heb een You tube filmpje van Todd Grande bekeken waarin dit heel duidelijk uitgelegd wordt. 

Identifying Multivariate Outliers with Mahalanobis Distance in SPSS (Todd Grande).  

beantwoord 20 juli 2017 door Rita Reyneveld (420 punten)
Hej Rita,

Bedankt voor je reactie! Ga het filmpje bekijken, dankjewel!

Groeten, Ivonne
Zie nu dat ik dit filmpje al gezien. :-/ Daar kwam trouwens weer een andere waarde uit. Het verschil in waarden betekent in mijn database ook wel of niet verwijderen.
0 leuk 0 niet-leuks
Het antwoord is eigenlijk eenvoudig: er bestaan geen zinvolle cut-off waarden.

Sterker nog, het berusten op cut-off waarden is misleidend: het verhult de subjectieve aard van statistische analyses. Je neemt zo impliciet een besluit, zonder dat je de context van dat besluit in ogenschouw neemt, maar tegelijkertijd lijkt het besluit objectief en goed onderbouwd omdat getallen snel overkomen als betrouwbaar en 'hard'.

Je kunt dus prima in parallel twee of drie cut-off waarden hanteren: eentje die wat aan de liberale kant lijkt, eentje die wat aan de conservatieve kant lijkt, en misschien eentje er tussenin. Herhaal je analyses dan voor die verschillende cut-off waarden. Als je conclusies anders zijn afhankelijk van de waarde van je cut-off, dan weet je dat je dus niet goed conclusies kunt trekken. De conclusies kunnen dan ofwel verstoord worden door outliers (als je een te liberale cut-off kiest, en problematische data niet worden verwijderd), ofwel vertekend worden doordat relevante datapunten worden verwijderd (als je een te conservatieve cut-off kiest).

Als je conclusies met elke cut-off hetzelfde zijn, kun je dat in een voetnoot melden. Dan maakt het dus weinig uit welke van de cut-offs je kiest. Dit is de ideale situatie: je conclusies zijn dan robuust en niet conditioneel op slechts enkele datapunten.

Als je conclusies afhankelijk zijn van de cut-off die je kiest, dan heb je een probleem. Je hebt dan te weinig datapunten, of je data heeft te weinig integriteit, om goed te weten waar je aan toe bent. Je dataset kan dan niet goed uitsluitsel geven met betrekking tot je onderzoeksvragen/hypothesen, en dat moet je dan als zodanig rapporteren.
beantwoord 24 juli 2017 door gjp (69,780 punten)

Dankjewel weer Gjalt-Jorn! Maar ik ben nog niet zeker van mijn zaak. indecision

Ik heb nu drie verschillende 'waarden' n.a.v. drie verschillende cut-offs. Hanteer ik die van Field, dan moet ik 1 respondent verwijderen. Hanteer ik de andere twee, dan kan ik deze respondent behouden in mijn databestand. Omdat in opdracht 6.2.1 staat dat we bij de interpretatie de richtlijnen van Field moeten hanteren (met een conservatievere p-waarde < .001, heb ik inmiddels deze respondent verwijderd uit mijn databestand. Ik heb wel ook mijn bestand bewaard MET deze respondent voor het geval het toch niet goed is, maar ik ben in mijn analyses wel verder gegaan ZONDER deze respondent. Als ik in mijn verslag vermeld dat ik Field hanteer, maar ook vermeld dat bij andere cut-offs er andere waarden uitkomen, is het dan goed? Begrijp ik dat goed?

En hoe noteer je deze waarden? Op internet heb ik gevonden dat Mahalanobis Distance wordt aan geduid met D​2. ​Maar verder kan ik er niets over vinden. Is dit een voorbeeld van een juiste notatie: D2​(2) =  9.41. Waarbij de 2 tussen haakjes het aantal predictoren is, en achter het = teken de Mahalanobis waarde?

En dat je er dan bij zet wat de kritieke waarde is die je hebt gehanteerd, in dit geval die Field aanhoudt:  Cf, kritieke X​2​(2) = 9.21? Maar hoe komen jullie in de opdracht dan aan: Cf, kritieke X​2​(10) = 29.59? Bij df = 10, zie ik in Field een heel andere waarde namelijk.

Wil je me nog een keer verder helpen?

...