Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Welke variabelen neem ik wel en niet op in een multiple regressieanalyse?

0 leuk 0 niet-leuks
Goedemiddag, mijn vraag is deze: Welke variabelen neem ik wel en niet op in een multiple regressieanalyse, en hoe bepaal en verantwoord ik dat?

Ik heb wat veel variabelen, dus ik heb het idee dat ik mijn model wat moet opschonen. Ik vraag me af hoe ik het beste te werk kan gaan en ook hoe ik dit in mijn artikel moet verantwoorden. Ik heb het idee dat het wat op trial & error gaat lijken en dat lijkt me geen goede onderbouwing. Ik heb zelf een aanpak uitgewerkt op basis van wat ik her en der gelezen heb. Zouden jullie er eens op willen schieten en kijken wat ik beter anders kan doen?

Ik heb eerst alle bivariate correlaties berekend en van alle intervalvariabelen de zero-order correlaties. Voor de categoriale variabelen heb ik geen zero-order correlaties (dit staat niet bij de opties).

Variabelen die op basis van de bivariate correlaties niet samenhangen met de afh.var. verwijder ik. Zo blijven er echter nog 15 over.

Ik voer eerst de belangrijkste variabelen in het model in via 'enter'. In een volgende stap stop ik de andere variabelen en in de twee stappen erna voer ik dummies erbij in. Ik dacht zelf eraan om de minst significante variabelen daarna uit het model te halen en het model dan opgeschoond opnieuw te analyseren. Is dit een goede methode om mee te beginnen?

Voor de zekerheid wil ik alle variabelen ook invoeren en berekenen via 'backward'. Variabelen die beide keren(via enter en backward) niet significant zijn (en ook niet de 'kernvariabelen' van mijn model), verwijder ik dan. Vervolgens doe ik hetzelfde nog eens via 'forward'. Wat dan significant is neem ik sowieso mee in het laatste model dat ik weer via 'enter' toets. De grensgevalletjes neem ik ook mee, maar zet ik onderaan het model. De zeer niet-significante waarden laat ik achterwege.

Een eerste uitkomst is nu dat leeftijd bijvoorbeeld in de bivariate correltaties wel correleert met de afhankelijke variabele 'intentie tot gedrag'. Ook in de zero-order correlatie laat deze een lage, maar significante correlatie zien (p=.03). In het regressiemodel is deze echter zeer onsignificant. Is dit bijvoorbeeld een variabele die ik eruit kan halen voor het definitieve model?

Alvast bedankt voor jullie antwoorden en evt. tips.

Hartelijke groeten, Astrid
gevraagd 5 juni 2015 in Multivariate statistiek door Astrid (160 punten)

1 Antwoord

1 leuk 0 niet-leuks

Welke variabelen je in je regressie-model opneemt bepaal je op basis van theorie.

Alle multivariate analyses moet je theorie-gestuurd gebruiken. Dit omdat door de correctie voor samenhang tussen variabelen (wat betekent dat variantie wordt verwijderd uit het model) de kans op statistische artefacten nog hoger is dan bij bivariate analyses.

Als je bijvoorbeeld 20 voorspellers hebt, mag je nooit deze 20, of die subset die bivariaat significant is, in een regressie-model gooien, en kijken welke voorspellers significant blijven. Je resultaten worden dan praktisch onmogelijk om te interpreteren, omdat je grote delen van de variantie in je afhankelijke en onafhankelijke variabelen uit het model hebt verwijderd.

In jouw geval lijkt het er op alsof je onderzoek doet naar gedragsverandering (of in elk geval gedragsverklaring, a la de Theory of Planned Behavior of de Reasoned Action Approach, het modernere jongere broertje of zusje). In dat geval doe je normaal het volgende:

  1. Bereken bivariate correlaties tussen beliefs en determinanten;
  2. Bereken bivariate correlaties tussen determinanten en intentie en/of gedrag
  3. Draai een regressie-model waarin je per determinant de onderliggende significante beliefs als voorspeller opneemt;
  4. Draai een regressie-analyse waarin je intentie of gedrag voorspelt met je determinanten

In die laatste twee regressie-modellen kijk je niet naar de regressie-coefficienten, maar naar de proportie verklaarde variantie ($R^2$), omdat je wil weten hoeveel je van een determinant begrijpt (of hoeveel van de variantie in intentie/gedrag je begrijpt).

De regressie-coefficienten zijn geen bruikbare schattingen omdat die conditionele verbanden tussen bijvoorbeeld de attitudinal beliefs en attitude weergeven. Echter, voor gedragsverandering wil je weten wat de onconditionele verbanden met de relevante determinanten zijn; je wil een interventie immers richten op alle beliefs dit een determinant voorspellen, niet alleen op de beliefs die net iets meer unieke variantie voorspellen. De gedeelde variantie in de afhankelijke variabele wil je immers ook voorspellen (en veranderen)! Zie voor wat meer achtergrond het eerste artikeltje op http://effectivebehaviorchange.com/ (op pagina 151 staat een stappenplan voor de analyse van determinanten en beliefs)

Buiten de context van gedragsverandering hangt je plan (wanneer je welke voorspellers in je model opneemt) af van je theoretisch kader. In alle gevallen moet je echter in je achterhoofd houden dat je bij multivariate analyses overlappende variantie tussen voorspellers uit het model verwijdert, en dat kan verregaande consequenties hebben voor de conclusies die je kunt trekken. Door variantie te verwijderen verander je immers de operationalisaties van je variabelen.

De bottom line is dus: bouw nooit een regressie-model op basis van de significanties van regressie-coefficienten, tenzij je heel goed begrijpt waar je mee bezig bent (maar mensen die dat zo goed begrijpen komen niet op deze vraag-antwoord site waarschijnlijk :-)). Multivariate modellen (e.g. regressie-modellen) moet je altijd bouwen op basis van je theorie.

beantwoord 8 juni 2015 door gjp (63,300 punten)

Een zero-order correlatie IS trouwens een bivariate correlatie - die getallen zouden hetzelfde moeten zijn. Daar lijkt dus iets vreemds te gebeuren?

Beste Gjalt-Jorn

Mijn onderzoek gaat inderdaad uit van de Reasoned Action Approach :-). Ik ben heel blij met je uitleg, het is voor mij een enorme bevestiging.

Ik heb nu eerst de bivariate correlaties berekend van de determinanten. De sample heb ik gesplitst in intenders en non-intenders en per belief heb ik gekeken of het verschil significant is (levert interessante informatie op).  In mijn artikel  vermeld ik straks in elk geval: de R2 van de determinanten op intentie + de R2 van de beliefs op intentie + de R2 van beliefs op de drie determinanten? Ik merk dat dit erg verschillend wordt toegepast in onderzoeken rond RAA.

Wat ik me nu nog ernstig afvraag is wat ik met de achtergrondfactoren moet (o.a. leeftijd/geslacht/ constructivist en traditional teaching beliefs/ previous use). Van de genoemde kan ik vanuit de theorie beredeneren dat ze van invloed zijn. Daarnaast heb ik nog enkele uit eigen nieuwsgierigheid gemeten (o.a. teaching qualification, fte, teaching experience) . Ik moet enkele schrappen, want ik heb er nu teveel en enkele variabelen komen overeen met de beliefs uit de elicitation study (bijv. workload en perceived competence wilde ik meenemen, maar dit zijn al saillante beliefs). Die wil ik daarom schrappen.

Verder lijkt het me het op basis van wat ik begrepen heb het beste om dan ook hier de correlaties tussen de achtergrondvariabelen en de determinanten + intentie te berekenen. Deze kan ik dan in een model/stroomdiagram weergeven. Om de proportie verklaarde variantie te meten, voer ik regressieanalyses uit met in stap 1 de beliefs, c.q. de determinanten en in stap 2 de toevoeging van achtergrondvariabelen.  Meet ik dan alleen geen dingen dubbel, vraag ik me af? En heb ik dit inderdaad juist begrepen?

Ik had nog wel interactie-effecten berekend, maar misschien wordt dit teveel voor één artikel. Zo is leeftijd x attitude erg significant (hoe ouder, hoe lager de attitude van docenten is, wat van invloed is op hun intentie web 2.0-toepassingen in te zetten in het onderwijs). Ik maak uit jouw verhaal echter op dat ik beter niet naar significante r’s in de regressies kan kijken, dus dat zal ook hiervoor gelden, neem ik aan?

Hartelijke groeten,
Astrid
Ik was er inderdaad inmiddels achter dat ik zero-order correlations verwarde met partial correlations. Het is dus niet zinvol deze partial correlations ook te vermelden, aangezien de gedeelde variantie dan ook wordt verwijderd. Klopt dit?

Ik ben er hier en daar nog erg onzeker over de aanpak, dus ik waardeer je antwoorden of bevestiging enorm.
...