Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Hoe is een gevonden significante beta-waarde te verklaren in combinatie met geen verband (een r van bijna nul)?

0 leuk 0 niet-leuks
Voor een MRA (meerdere onafhankelijke variabelen die een afhankelijke variabele voorspellen) heb ik een significante bèta-waarde gevonden maar deze strookt niet met het feit dat er eerder geen verband werd aangetroffen tussen de betreffende variabelen. Hoe kan ik dit interpreteren?
gevraagd 16 juni 2016 in Multivariate statistiek door Miss Psycho (390 punten)

2 Antwoorden

0 leuk 0 niet-leuks
Eigenlijk heb je zelf al het goede antwoord gegeven. Goed dat je niet blind vaart op p-waarden. P-waarden zijn steekproefgrootte afhankelijk. Breng in herinnering dat B (en in het verlengde daarvan Beta) wordt berekend door de b te delen door SE en dat SE een deling is van s / wortel(n). Naarmate n groter wordt wordt SE kleiner (want 1/10 is een groter getal dan 1/100). Zodra SE kleiner wordt wordt de deling b / SE dus steeds een groter getal. Zulke hoge t-waarden maken zelfs triviale verschillen significant.

Kort antwoord: noem in de resultaten de getallen en duid ze op statistisch niveau (significant, zeer zwak verband). In de discussie kun je dieper reflecteren op de implicaties hiervan op theorie en praktijk.

Langer antwoord:

Ik weet niet hoe groot N in jouw steekproef is, of hoe klein de variantie/standaarddeviatie. Hoe dan ook: als alles goed berekend is en er niet veel covariaten zijn die je effect wegdrukken, dan kun je inderdaad stellen wat je al stelt: ja significant, maar nee eigenlijk niet van groot theoretisch verband.

Kleine kanttekening: ook hele kleine verbanden kunnen belangrijk zijn. Het Higgs-Boson waar het nieuws vol van stond maanden geleden is een zoektocht naar een verband dat zo dicht op nul zit dat er miljarden steekproeven nodig zijn om het ruisoverstijgend aannemelijk te maken. Theoretisch is het echter alleszeggend. Plaats in de discussiesectie dus de vondst in de gepaste context. Iets met een praktisch nulverband wordt in de psychologische praktijk waarschijnlijk weggedrukt door andere variabelen. Maar in isolatie doet het blijkbaar toch iets. Met de Beta kun je aangeven hoeveel standaardeviaties iemand op Y veranderd bij een stijging van 1 op de onafhankelijke variabele. Denk goed na wat dat betekent. Als een stijging van 1 zelf onbeduidend is, dan is een kleine Beta niet gek, zoals bij IQ-punten, maar als een betekenisvolle toename van X gepaard gaat met een relatief betekenisvolle toename van Y dan is het toch intessant.
beantwoord 16 juni 2016 door Ron Pat-El (39,650 punten)
Hmm, msch moeten wij beantwoording wat beter coordineren :-) De antwoorden zijn wel weer mooi complementair, dus het was tenminste van geen van beide verspilde moeite.
Het lijkt er inderdaad op dat we complementaire antwoorden hebben gegeven. Dat is mooi! Zolang het allemaal klopt hoeft het geen probleem te zijn ;P.
1 leuk 0 niet-leuks

Uitstekende vraag. Natuurlijk niet eentje met een heel makkelijk antwoord, jammer genoeg :-)

Lees eerst even het antwoord over multicollineariteit op http://oupsy.nl/help/258/correlaties-tussen-tussen-predictoren-regressieanalyses.

Zoals je nu begrijpt wordt overlappende variantie in regressie-analyse 'weggesneden'. Dat is natuurlijk logisch: hoe kun je (of kan het statistische programma dat je gebruikt, zoals R, SPSS, of PSPP) nu weten bij welke variabele die overlappende variantie eigenlijk 'hoort'? Overlap moet dus wel worden verwijderd uit je model.

Dit betekent dat de beta's niet langer slaan op de oorspronkelijke variabelen zoals je ze hebt geoperationaliseerd. Er is immers stelselmatig een deel van de variantie verwijderd. Als je bijvoorbeeld "voordelen van cocainegebruik" en "sociale norm ten opzichte van cocainegebruik" allebei in een regressie-analyse stopt om "cocainegebruik" te voorspellen, zullen de twee voorspellers samenhangen (vergelijkbaar met het tweede plaatje op http://oupsy.nl/help/258/correlaties-tussen-tussen-predictoren-regressieanalyses). Het overlappende deel wordt verwijderd.

De regressiecoefficienten (zowel de ruwe beta's, die SPSS "B's" noemt, als de gestandaardiseerde beta's, die SPSS "beta's" noemt) representeren dus niet langer de verbanden tussen enerzijds "voordelen van cocainegebruik" en "sociale norm ten opzichte van cocainegebruik" en anderzijds "cocainegebruik", maar in plaats daarvan de verbanden tussen enerzijds "voordelen van cocainegebruik voor zover die los staan van de sociale norm ten opzichte van cocainegebruik" en "sociale norm ten opzichte van cocainegebruik voor zover die los staat van voordelen van cocainegebruik" en anderzijds "cocainegebruik voor zover het los staat van redenen voor cocainegebruik die tot uiting komen in zowel voordelen van cocainegebruik als sociale norm ten opzichte van cocainegebruik".

Het probleem hier is dat je natuurlijk niet precies weet welke aspecten van je psychologische variabelen je nu wegsnijdt uit je operationalisaties. Je weet dus niet precies waar je beta's op slaan. Bij niet-psychologische variabelen speelt dit probleem veel minder; daar is de weggesneden variantie te interpreteren als correctie voor onderlinge samenhang. Bij psychologische variabelen, waarvoor geldt dat hun operationalisaties overlappen - en horen te overlappen volgens de theorie - geldt dat je opgescheept zit met voorspellers waarvan je niet precies weet wat ze representeren. Je weet alleen dat de operationalisaties niet langer de theoretische richtlijnen voor je operationalisaties volgen.

Wel, dit is wat er gebeurt in jouw geval. De betreffende variabele hangt bivariaat niet samen met je afhankelijke variabele. Echter, het stukje van die variabele dat niet samenhangt met de andere voorspellers in zijn voorspelling van je afhankelijke variabele (dus het unieke stukje, het stukje waar de overlappende 'verklarende variantie' uit is gesneden) hangt kennelijk wel samen met wat over is van de afhankelijke variabele nadat alle niet-uniek-verklaarde variantie eruit is gesneden. Tenminste, dit stukje van je voorspeller hangt in je steekproef relatief sterk samen met dat stukje van je afhankelijke variabele.

Omdat dit een heel conditioneel verband is, 'kapitaliseer je op kans': je combineert allerlei toevalligheden om tot de uiteindelijke beta en bijbehorende p-waarde te komen. Alle verbanden tussen variabelen in je steekproef zijn immers deels door toeval tot stand gekomen; alle correlaties komen bijvoorbeeld uit een eigen steekproevenverdeling en hebben dus een betrouwbaarheidsinterval. De puntschattingen voor je correlaties en regressie-coefficienten in jouw steekproef zijn te beschouwen als een betrouwbaarheidsinterval met 0% betrouwbaarheid: oftewel, je weet zeker dat die waarden in de populatie anders zijn.

De regressie-coefficient van je betreffende voorspeller is dus tot stand gekomen op basis van berekeningen die afhankelijk zijn van een veelheid aan toevallig tot stand gekomen puntschattingen. Hij is dus erg conditioneel. Pas daarom erg op met interpretatie: de kans dat ditzelfde patroon stand houdt als je de steekproef zou herhalen is erg laag (al die toevalligheden die tot deze regressie-coefficient hebben geleid zouden dan immers (toevallig) weer hetzelfde moeten zijn). Het verband dat door die regressie-coefficient wordt uitgedrukt is alleen 'geldig' als alle andere variabelen in je model ook daadwerkelijk worden meegenomen.

Daarnaast heeft die regressie-coefficient betrekking op een aangepaste operationalisatie van je variabele. Je weet dus niet precies wat hij uitdrukt. Dit is nog een reden om op te passen met interpretatie.

Het is dus goed mogelijk dat wat je hier ziet simpelweg een statistisch artefact is. Aan de andere kant zou het ook kunnen dat je juist iets interessants hebt gevonden: misschien werd het verband tussen het overgebleven stukje van deze voorspeller en het overgebleven stukje van je afhankelijke variabele wel verhuld in de bivariate correlatie. Dit is zeldzaam maar niet onmogelijk.

Overigens is het omgekeerde patroon natuurlijk veel voorkomender: dat voorspellers die bivariaat significant samenhangen, opeens non-significantie beta's hebben in multivariate analyses. In dat geval is het verwijderde (overlappende) deel van de variantie precies het deel waar de samenhang in zat.

Dus, kort samengevat: pas heel erg op met multivariate analyses. Omdat psychologische constructen sterk samenhangen (en dat is geen probleem maar meestal consistent met de betreffende theorieen) zijn dit soort patronen moeilijke te interpreteren.

Tot slot: vergeet niet dat elke p-waarde een kans van 5% heeft om een Type-1 fout te representeren. In een regressie met 5 voorspellers is de kans dat één of meer van die 5 p-waarden een Type-1 fout is bijvoorbeeld $1 - (.95 ^ 5) = 23 \%$. Als in een artikel ook een correlatietabel met 5 correlaties staat, worden daar nog meer p-waarden berekend ($((5 \times 5)-5) / 2 = 10$, hoewel die p-waarden natuurlijk samenhangen met de p-waarden van je regressie-coefficienten, dus de simpele berekening $1 - (.95 ^ {15}) = 54 \% $ gaat niet helemaal op), en wordt de kans dat er een paar significante p-waarden bij zitten, aangenomen dat er geen verbanden bestaan in de populatie (i.e. Type-1 fouten), al snel groter. Niet elke p-waarde onder de .05 is dus indicatief dat er iets aan de hand is.

beantwoord 16 juni 2016 door gjp (63,080 punten)
bewerkt 16 juni 2016 door gjp
...