Welke variabelen neem ik wel en niet op in een multiple regressieanalyse?

Question

Welke variabelen neem ik wel en niet op in een multiple regressieanalyse?

Goedemiddag, mijn vraag is deze: Welke variabelen neem ik wel en niet op in een multiple regressieanalyse, en hoe bepaal en verantwoord ik dat?

Ik heb wat veel variabelen, dus ik heb het idee dat ik mijn model wat moet opschonen. Ik vraag me af hoe ik het beste te werk kan gaan en ook hoe ik dit in mijn artikel moet verantwoorden. Ik heb het idee dat het wat op trial & error gaat lijken en dat lijkt me geen goede onderbouwing. Ik heb zelf een aanpak uitgewerkt op basis van wat ik her en der gelezen heb. Zouden jullie er eens op willen schieten en kijken wat ik beter anders kan doen?

Ik heb eerst alle bivariate correlaties berekend en van alle intervalvariabelen de zero-order correlaties. Voor de categoriale variabelen heb ik geen zero-order correlaties (dit staat niet bij de opties).

Variabelen die op basis van de bivariate correlaties niet samenhangen met de afh.var. verwijder ik. Zo blijven er echter nog 15 over.

Ik voer eerst de belangrijkste variabelen in het model in via 'enter'. In een volgende stap stop ik de andere variabelen en in de twee stappen erna voer ik dummies erbij in. Ik dacht zelf eraan om de minst significante variabelen daarna uit het model te halen en het model dan opgeschoond opnieuw te analyseren. Is dit een goede methode om mee te beginnen?

Voor de zekerheid wil ik alle variabelen ook invoeren en berekenen via 'backward'. Variabelen die beide keren(via enter en backward) niet significant zijn (en ook niet de 'kernvariabelen' van mijn model), verwijder ik dan. Vervolgens doe ik hetzelfde nog eens via 'forward'. Wat dan significant is neem ik sowieso mee in het laatste model dat ik weer via 'enter' toets. De grensgevalletjes neem ik ook mee, maar zet ik onderaan het model. De zeer niet-significante waarden laat ik achterwege.

Een eerste uitkomst is nu dat leeftijd bijvoorbeeld in de bivariate correltaties wel correleert met de afhankelijke variabele 'intentie tot gedrag'. Ook in de zero-order correlatie laat deze een lage, maar significante correlatie zien (p=.03). In het regressiemodel is deze echter zeer onsignificant. Is dit bijvoorbeeld een variabele die ik eruit kan halen voor het definitieve model?

Alvast bedankt voor jullie antwoorden en evt. tips.

Hartelijke groeten, Astrid

gevraagd 5 juni 2015 in Multivariate statistiek door Astrid (160 punten)

1 Antwoord

gjp · Answer 1 · 2015-06-08T11:58:43+0000

Welke variabelen je in je regressie-model opneemt bepaal je op basis van theorie.

Alle multivariate analyses moet je theorie-gestuurd gebruiken. Dit omdat door de correctie voor samenhang tussen variabelen (wat betekent dat variantie wordt verwijderd uit het model) de kans op statistische artefacten nog hoger is dan bij bivariate analyses.

Als je bijvoorbeeld 20 voorspellers hebt, mag je nooit deze 20, of die subset die bivariaat significant is, in een regressie-model gooien, en kijken welke voorspellers significant blijven. Je resultaten worden dan praktisch onmogelijk om te interpreteren, omdat je grote delen van de variantie in je afhankelijke en onafhankelijke variabelen uit het model hebt verwijderd.

In jouw geval lijkt het er op alsof je onderzoek doet naar gedragsverandering (of in elk geval gedragsverklaring, a la de Theory of Planned Behavior of de Reasoned Action Approach, het modernere jongere broertje of zusje). In dat geval doe je normaal het volgende:

Bereken bivariate correlaties tussen beliefs en determinanten;
Bereken bivariate correlaties tussen determinanten en intentie en/of gedrag
Draai een regressie-model waarin je per determinant de onderliggende significante beliefs als voorspeller opneemt;
Draai een regressie-analyse waarin je intentie of gedrag voorspelt met je determinanten

In die laatste twee regressie-modellen kijk je niet naar de regressie-coefficienten, maar naar de proportie verklaarde variantie ($R^2$), omdat je wil weten hoeveel je van een determinant begrijpt (of hoeveel van de variantie in intentie/gedrag je begrijpt).

De regressie-coefficienten zijn geen bruikbare schattingen omdat die conditionele verbanden tussen bijvoorbeeld de attitudinal beliefs en attitude weergeven. Echter, voor gedragsverandering wil je weten wat de onconditionele verbanden met de relevante determinanten zijn; je wil een interventie immers richten op alle beliefs dit een determinant voorspellen, niet alleen op de beliefs die net iets meer unieke variantie voorspellen. De gedeelde variantie in de afhankelijke variabele wil je immers ook voorspellen (en veranderen)! Zie voor wat meer achtergrond het eerste artikeltje op http://effectivebehaviorchange.com/ (op pagina 151 staat een stappenplan voor de analyse van determinanten en beliefs)

Buiten de context van gedragsverandering hangt je plan (wanneer je welke voorspellers in je model opneemt) af van je theoretisch kader. In alle gevallen moet je echter in je achterhoofd houden dat je bij multivariate analyses overlappende variantie tussen voorspellers uit het model verwijdert, en dat kan verregaande consequenties hebben voor de conclusies die je kunt trekken. Door variantie te verwijderen verander je immers de operationalisaties van je variabelen.

De bottom line is dus: bouw nooit een regressie-model op basis van de significanties van regressie-coefficienten, tenzij je heel goed begrijpt waar je mee bezig bent (maar mensen die dat zo goed begrijpen komen niet op deze vraag-antwoord site waarschijnlijk :-)). Multivariate modellen (e.g. regressie-modellen) moet je altijd bouwen op basis van je theorie.

Categorieën

Welke variabelen neem ik wel en niet op in een multiple regressieanalyse?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

Welke variabelen neem ik wel en niet op in een multiple regressieanalyse?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

1 Antwoord

Aub. inloggen or registreren om een opmerking te plaatsen.