Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

mahalanobis-distances en missing values

0 leuk 0 niet-leuks
Beste docenten,

Bij het opsporen van multivariate outliers gebruiken we mahalanobis-distance, deze wordt in onze dataset berekend op basis van drie variabelen. Het is logisch dat er geen MD wordt berekend bij respondenten waarbij de score op ten minste één van de drie variabelen ontbreekt.

Als een respondent echter 2 van de 3 variabelen heeft ingevuld, zou nog steeds kunnen voorkomen dat de combinatie van de twee variabelen een extreme score (dus multivariate uitbuiter) blijkt. Is het dan logisch om voor deze combinatie van variabelen een aparte MD te berekenen?

Concreet bereken je dan in het geval van 3 variabelen (A, B, C) de MD voor de combinatie A+B+C (dit is wat normaal gesproken wordt gedaan), maar óók voor de combinatie A+B, A+C, B+C.

Op deze manier worden ook de respondenten die een score hebben op slechts 2 van de 3 variabelen onderzocht op multivariate uitbijters.

Is deze gedachtegang juist?
Alvast bedankt voor het meedenken!
gevraagd 7 juni in Longitudinaal Onderzoek (PB1702) door joyce_ou (170 punten)
bewerkt 7 juni door joyce_ou

1 Antwoord

1 leuk 0 niet-leuks
Ja, dat is inderdaad een goede aanpak.

Het zou ook kunnen dat je dit door je statistische software kunt laten doen. Soms kun je instellen wat er wordt gedaan als we missende waarden zijn; bijvoorbeeld dat dan alleen gewerkt moet worden met de 'niet-missende' waarden.

Maar, dit kan niet met alle softwarepakketten, en anders is het inderdaad wel goed om dat handmatig te doen!
beantwoord 9 juni door gjp (69,620 punten)
...