Beste docenten,
Bij het opsporen van multivariate outliers gebruiken we mahalanobis-distance, deze wordt in onze dataset berekend op basis van drie variabelen. Het is logisch dat er geen MD wordt berekend bij respondenten waarbij de score op ten minste één van de drie variabelen ontbreekt.
Als een respondent echter 2 van de 3 variabelen heeft ingevuld, zou nog steeds kunnen voorkomen dat de combinatie van de twee variabelen een extreme score (dus multivariate uitbuiter) blijkt. Is het dan logisch om voor deze combinatie van variabelen een aparte MD te berekenen?
Concreet bereken je dan in het geval van 3 variabelen (A, B, C) de MD voor de combinatie A+B+C (dit is wat normaal gesproken wordt gedaan), maar óók voor de combinatie A+B, A+C, B+C.
Op deze manier worden ook de respondenten die een score hebben op slechts 2 van de 3 variabelen onderzocht op multivariate uitbijters.
Is deze gedachtegang juist?
Alvast bedankt voor het meedenken!