Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Hierarcische regressie icm controlevariabelen

0 leuk 0 niet-leuks
Hoi allemaal,

Ik weet dat dit forum officieel niet voor mij (wel OU student, echter Managementwetenschappen) bestemd is, maar ik kan nergens heen met mijn vraag en ik hoop dat jullie het antwoord heel makkelijk hebben. Dit is de laatste stap in mijn scriptie dus ik hoop hierna niemand meer van last te zijn ;-)

Ik wil een hiërarchische regressie uitvoeren in 3 stappen
Stap 1: Controlevariabelen (leeftijd categorieën, geslacht, omvang dienstverband, opleidingsniveau etc).
Stap 2: Alle onafhankelijke variabelen toevoegen
Stap 3: interacties toevoegen (inmiddels dankzij dit forum bekend mee)

Nu heb ik voor de controlevariabelen allereerst nieuwe variabelen aangemaakt, waarmee ik in een eerder stadium correlaties heb uitgevoerd. Zo heeft bijv. leeftijd nu  5 categorieën van 1 t/m 5. (Vragen zijn ook gesteld in categorieën). Ik heb vervolgens dummy variabelen aangemaakt en daar multiple regressie mee uitgevoerd waarin de dummy's dus per blok zijn opgenomen. Op die manier kon ik dus het onderscheid in MBO of HBO zien tov mijn afhankelijke variabele.

Echter, in de  hiërarcische regressie wil ik gewoon 'opleidingsniveau' los meenemen, en dus niet een hele lijst uitgesplitst, zowel om het overzichtelijk te houden maar ook omdat er geen significante effecten tussen zitten. Ik zie dat ook in veel andere scripties terug bij hiërarcische regressie tabellen.

Hoe doe ik nu die toetsing voor die controle variabelen? Kan ik dan die nieuw aangemaakte variabele (niet dummy, maar dus de ordinale met 1= MBO, 2 = HBO etc) gebruiken of gaat dit weer op een andere manier ?

Alvast heel erg bedankt voor de genomen moeite.
 

groet,
Kirsten
gevraagd 2 maart 2017 in Multivariate statistiek door kirstenvanharten (140 punten)

1 Antwoord

1 leuk 0 niet-leuks

Wat je wil kan niet. Opleidingsniveau is ordinaal; de 'afstand' tussen MBO en HBO is niet gelijk aan de afstand tussen HBO en WO. Als anderen dit wel zo doen, dan doen ze het fout.

Bekijk alle bivariate verbanden (correlaties, t-toetsen, eenweg anova's). Alle controlevariabelen die niet samenhangen met je afhankelijke variabele hoef je verder niet meer mee te nemen; zij kunnen niet confounden.1

In deze analyse zijn leeftijd en opleiding ordinaal, dus die toets je met een anova. Als je geluk hebt zijn ze niet significant en hoef je ze niet mee te nemen in je regressie-analyse.

Als leeftijd en/of opleidingsniveau wel samenhangt met je afhankelijk variabele, dan moet je die meenemen met dummy-codering (dus voor leeftijd heb je dan 4 variabelen).

Overigens: meet nooit met categorieen. De cut-offs die je gebruikt zijn bijna nooit te rechtvaardigen. En je verliest power, en maakt je analyses een stuk complexer. Bij opleidingsniveau is het onvermijdelijk, maar bij leeftijd kun je beter gewoon mensen hun leeftijd laten ingeven.

1 Confounding betekent dat een verband wordt verstoord door een andere variabele. Hiervoor moet die andere variabele zowel met de voorspeller als je afhankelijke variabele samenhangen. Als hij niet met een van de twee samenhangt, dan kan het geen confounder zijn.

beantwoord 3 maart 2017 door gjp (63,910 punten)

Gjalt-Jorn, heel erg bedankt. Ik zou willen dat we zij bij mijn faculteit zoiets als dit hadden! 

Achteraf gezien had ik het inderdaad beter anders kunnen opzetten die categorieen. Niet slim geweest :-) Opleidingsniveau en omvang dienst verband zijn wel significant en neem ik daarom wel mee. Maar m'n scriptiebegeleider is ook van mening dat niet significante/niet correlerende controle variabelen ook gewoon mee moeten in het model, wat ik zelf ook een beetje rommelig vind ogen en ik maak liever een spaarzame tabel/model. 

Jij zegt nog wat andere doen dat kan niet, maar ik zie het echt in héél veel scripties terug. Ik zie daar de dummy variabelen niet in de tabel terug (Zie 2 voorbeelden). Snap je wat ik bedoel als ik deze laat zien? 

Wel, geslacht is dichotoom: die kun je dus dummy-coderen met 1 variabele (meestal 0/1). Leeftijd wordt normaal als continue variabele (meestal interval, in jaren) gemeten, en mag dus ook gewoon mee als voorspeller. Diploma is neem ik aan ook dichotoom. In die bovenste doen ze het fout, tenzij opleiding maar 1 niveau's heeft (e.g. laag vs hoog): dan is die dichotoom en kun je die dus gewoon als voorspeller meenemen.

Overigens is het in je regressiemodel opnemen van niet-significante voorspellers meestal geen goed idee. Omdat je voorspellers met elkaar kunnen samenhangen kan het zijn dat je hierdoor de operationalisatie van je variabelen veranderd. Dit geldt vooral als je psychologische variabelen meet, en is nogal ingewikkeld; maar de keuze om irrelevante voorspellers toch in je model op te nemen is dus niet vanzelfsprekend, en niet eenvoudig te onderbouwen. Ik zou dus even goed navragen of je begeleider dat wel echt bedoeld, en waarom je begeleider dat dan precies gerechtvaardigd vindt.

Spaarzaamheid van tabellen is overigens, in tegenstelling tot spaarzaamheid van modellen, nooit leidend in je analyses :-P :-)

Overigens kun jij opleidingsniveau dus ook dichotomiseren als je wil; wellicht kun je categorieen samenvoegen op een manier die goed te verdedigen is?

...