Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks
Studiecentrum Den Haag

Beste docent,

Ik heb vijf variabelen die persoonseigenschappen meten. De variabelen zijn op intervalniveau gemeten. Is er een mogelijkheid in spss om deze vijf variabelen te groeperen in 1 groep zodat ik de gemiddelden kan vergelijken met een one-way anova?

Of bereken je dit in feite ook met een multi-regressie, ik ben het even kwijt... :)

 

Met vriendelijke groet,

Ezra Niessink
in Cross-sectioneel Onderzoek (OCO, PB08x2) door (510 punten)
Zijn de 5 variabelen de 'big five'? En - heb je ook nog een andere variabele? Zonee, waarop wil je de 5 variabelen vergelijken?
yes, the big five. Deze gelden als onafhankelijke variabelen. Ik heb verder leeftijd en een afhankelijke variabele die ook continue is.

2 Antwoorden

1 leuk 0 niet-leuks
Hoewel het mogelijk is in SPSS, zou ik eerder afvragen of het wenselijk is. De big 5 is niet unidimensionaal: je verwacht niet dat iemand hoog op extraversie ook altijd hoog moet scoren op neuroticisme. Het betreft 5 aparte bronnen van informatie. Ik zou daar toch aparte analyses op doen.

Dit kan problematisch zijn wanneer dit je afhankelijke variabelen zijn. Multivariate technieken, zoals multivariate regressie, of MANOVA kunnen handig zijn om aan de ene kant de 5 persoonlijkheidstrekken apart te analyseren, maar tegelijkertijd er rekening mee te houden dat persoonlijkheidstrekken gecorreleerd zijn.
door (63.5k punten)
2 leuk 0 niet-leuks

Nog even voor alle duidelijkheid: dus je hebt zeven interval-variabelen, waarvan je er zes als afhankelijke variabelen beschouwd, en één (leeftijd) als onafhankelijke variabele?

In dat geval zou ik gewoon de zes bivariate correlaties uitrekenen. Als je een multivariate techniek gebruikt, krijg je alleen de toets of alles met elkaar samenhangt. Die geeft geen zinvolle informatie; je wil daarna toch weten welke variabelen nu precies met elkaar samenhangen. Uiteindelijk ga je dus toch naar de bivariate verbanden kijken (al dan niet gecorrigeerd, zoals in regressie-analyse - maar pas op met dergelijke conditionele verbanden, je doet dan uitspraken over situaties die misschien niet realistisch zijn).

Omdat je uiteindelijk toch uitspraken wil doen over de bivariate verbanden, moet je daar overigens ook op gepowered zijn; formeel moet je power-analyse dus rekening hebben gehouden met de correctie van de p-waarden voor de zes bivariate toetsen. Aan de andere kant, je kunt ook de betrouwbaarheidsintervallen berekenen voor de correlaties, in plaats van nulhypothese-toetsing. Dat kan relatief eenvoudig met het R package 'userfriendlyscience':

install.packages('userfriendlyscience');
require('userfriendlyscience');
dat <- getData();
rMatrix(dat, x=names(dat));

Met deze vier R commando's installeer je dat package; laad je het; laat je R een dialoogje tonen om je datafile te laden; en bereken je een correlatiematrix met betrouwbaarheidsintervallen voor alle variabelen in die datafile (zie ook http://oupsy.nl/help/24/wat-is-r-en-hoe-installeer-ik-het en http://rpackages.ianhowson.com/cran/userfriendlyscience/man/userfriendlyscience-rMatrix.html).

door (77.8k punten)
Bedankt voor het antwoord. Echter, ik heb 6 onafhankelijke variabelen (de big five + leeftijd) en 1 afhankelijke variabele. Verandert dit het antwoord?

Het hangt van je onderzoeksvraag af :-) De big five zijn deels, maar niet volledig, orthogonaal. Als je alle gedeelde variantie verwijdert uit je model houd je dus variabelen over die in werkelijkheid nooit voorkomen. Dit hoeft niet erg te zijn; het hangt er een beetje vanaf hoe toegepast je onderzoeksvraag is. Hoe toegepaster je onderzoeksvraag, hoe minder bruikbaar modelleringsanalyse (multivariate analyses) vaak zijn. Met 6 onafhankelijke variabelen zou je in elk geval, als je ze allemaal voor elkaar wil corrigeren, een gewone regressie-analyse kunnen doen.

Dan is het belangrijk om eerst naar je correlaties te kijken, en alleen voorspellers toe te voegen die bivariaat significant samenhangen, tenzij je op basis van theoretische of empirische evidentie redenen hebt om aan te nemen dat er zodanige confounding is dat je voorspellers elkaars effecten kunnen 'supressen'.

Houd er bij een multivariate regressie overigens rekening mee (mocht je nog geen data verzameld hebben, maar wsch heb je dat wel; maar just in case) dat je door collineariteit minder power hebt. Collineariteit is het verschijnsel dat je voorspellers niet onafhankelijk zijn, en dus ook een beetje (of meer dan een beetje) samenhangen. Dit leidt tot 'inflatie' van je errorvariantie, en dus tot een afnamen van je power. Zie voor meer informatie http://oupsy.nl/help/32/hoe-bereken-ik-de-power-voor-een-mediatie-analyse en http://oupsy.nl/help/35/wat-zijn-de-vif-en-tolerance-bij-regressie-analyse.

Helder bedankt. Om toch nog even terug te komen op mijn initiele vraag. Hoe maak je van de vijf onafhankelijke continue variabelen, 1 groep variabele zodat je een one-way anova kunt doen?

Je kunt sowieso geen oneway anova doen, want je hebt geen categorische variabelen. Alle zeven variabelen zijn interval, en bij een oneway anova is de factor, waarmee je de groepen maakt om de within en between groups variance uit te rekenen, categorisch (ordinaal of nominaal), met een beperkt aantal verschillende meetwaarden (want elke groep moet genoeg deelnemers hebben om de standaardfout in die groep te bepalen).

Bovendien zijn er twee redenen om variabelen (zoals items, of al ge-aggregeerde variabelen zoals in jouw geval) te aggregeren.

De eerste, meest bekende, is omdat de variabelen herhaalde metingen betreffen van hetzelfde construct/variabele. In dat geval aggregeer je om de betrouwbaarheid te verhogen, en heet het aggregaat een 'schaal'. Een voorbeeld is de items binnen extraversie; deze meten allemaal extraversie, en door ze te middelen verklein je de meetfout. Dit is in jouw geval niet aan de orde; de big five variabelen meten niet hetzelfde, maar zijn juist ontstaan omdat ze grotendeels onafhankelijke variabelen meten.

De tweede, minder bekende, is omdat de variabelen verschillende constructen/variabelen meten die functioneel hetzelfde of vergelijkbaar zijn. In dit geval aggregeer je om een soort 'gemiddelde' van die functioneel vergelijkbare variabelen te krijgen, en heet het aggregaat een 'index'. Een voorbeeld zijn zogenaamde 'perceived norm' items, zoals de drie vragen "sport je partner of beste vriend(in)?", "sporten je vrienden?" en "sport je familie" (even los van alle fouten in deze items). Deze drie vragen meten niet hetzelfde construct, maar middeling is desondanks zinvol omdat je zo een indruk krijgt van de waargenomen norm die iemand heeft met betrekking tot sporten; het sportgedrag van de drie groepen mensen is immers functioneel hetzelfde. Dit is in jouw geval echter ook niet aan de orde.

Er zijn dus twee redenen om niet te aggregeren. Ten eerste is het theoretisch/methodologisch volstrekt onverdedigbaar. Ten tweede kun je sowieso geen anova doen want je hebt geen categorische variabelen.

Dat gezegd hebbende: en dit moet je dus niet doen: je middelt variabelen in SPSS met COMPUTE:

COMPUTE variabeleDieJeNietUitMoetRekenen = MEAN(openness, conscientiousness, extraversion, agreeableness, neuroticism).

(er even vanuit gaande dat dat je vijf variabelenamen zijn)

...