Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

hoofdeffect testen in een factoriele ANOVA

1 leuk 0 niet-leuks
Een vraag over de logica van de factoriële ANOVA. Ik denk dat ik iets belangrijks niet begrijp.

In een 2x2 factorial ANOVA kunnen we hoofdeffecten (laten we zeggen A en B) onderzoeken, maar ook het interactieeffect (A*B).

Als we twee groepen vergelijken, moeten ze, op de manipulatie na, op alle andere mogelijke kenmerken hetzelfde zijn. Maar dat is niet het geval als we één hoofdeffect testen in een factoriële ANOVA. Als we de twee levels van hoofdeffect A vergelijken (bijvoorbeeld A-laag en A-hoog) , dan zijn er binnen A-laag en binnen A-hoog verschillen op kenmerk B. In mijn optiek is B dan een soort covariaat, een externe factor. Hoe kunnen we toch conclusies trekken over het hoofdeffect van A?

 

Bedankt alvast, T
gevraagd 28 september 2014 in Psychologisch Experiment (PE) door Ting (770 punten)

1 Antwoord

1 leuk 0 niet-leuks

Goed gespot! Bij Nul Hypothese Significantie Toetsing ('NHST') werk je altijd onder de aanname dat er geen effect is. Deze aanname heb je immers nodig om de steekproevenverdeling te construeren (de F-verdeling, of de t-verdeling, of de chi-kwadraat verdeling, etc), waarbinnen je de p-waarde opzoekt aan de hand van de F-waarde, t-waarde, of chi-kwadraat waarde die je vond in je steekproef.

Dat betekent dat je, als je het hoofdeffect van A toetst, je noodzakelijkerwijs aanneemt dat een eventueel effect van B, mocht dat al bestaan, hetzelfde is voor alle niveau's van A. Als dat niet zo zou zijn, zou er een significante interactie zijn. En als er een significante interactie is, bestaan er geen hoofdeffecten, alleen simpele effecten (dus, effecten per niveau van de andere variabele(n)).

Dit is de reden dat je nooit naar hoofdeffecten mag kijken voordat je naar de interactie hebt gekeken.

In een factoriele anova bekijk je dus altijd eerst de interactie. Als die significant is, weet je dat de testen van de hoofdeffecten, ook al worden ze door je software netjes gegeven, nergens op slaan. Als er interactie is, is het effect van B immers afhankelijk van of A, bijvoorbeeld, laag of hoog is. Een hoofdeffect, een 'algemeen effect van B', bestaat dan niet; er bestaan slechts specifieke effecten van B ('simpele' effecten) voor elk niveau van A. Je moet dan dus de simple effects gaan toetsen.

Als de interactie niet significant is, kun je hem zelfs beter uit je model gooien, omdat je dan vaak een klein beetje aan power wint voor de toetsen op je hoofdeffecten. En als de interactie niet significant is, hoef je je geen zorgen te maken over de situatie die je beschrijft; er zijn dan binnen A-laag en A-hoog geen verschillen op kenmerk B. Een eventueel effect van B is dan immers even sterk voor A-laag en voor A-hoog: dat is de definitie van 'geen interactie'.

beantwoord 29 september 2014 door gjp (64,700 punten)
Interessant en helder, bedankt!

Ik heb wat zitten mijmeren over dat "uit het model gooien van de interactie" wanneer die niet significant blijkt te zijn. Is het echt zo simpel? Stel dat je een literatuuronderzoek deed en je daaruit de conclusie trekt dat er (in de populatie) heel waarschijnlijk een interactie tussen A en B bestaat. Maar in je onderzoek blijkt die interactie niet significant (toeval, klein staal...) Is het dan niet verstandiger om die interactie toch in het model te laten, omdat je anders het risico loopt dat de variantie die het 'gevolg' is van die interactie, ten onrechte toegewezen wordt aan 'hoofdeffecten' van A en/of B?

Achteraf "uit het model gooien" wekt bij mij daarom steevast een vermoeden van Statistisch Hengelen. Als je de interactie initieel opnam in het model, moet je daar toch een goede reden voor gehad hebben, meestal het sterke vermoeden dat de interactie er is in de populatie? Zelfs als ze in je eigen staal / analyse niet significant blijkt, verdwijnt ze toch niet in de populatie? Of ben ik te sceptisch?

Met 'klein staal' bedoel je 'kleine steekproef'? Zoja: dan ben je sowieso al verkeerd bezig.

Het is heel belangrijk om power-analyses te doen, en te zorgen dat je voldoende gepowered bent om de interacties en hoofdeffecten aan te tonen die je verwacht te vinden. Underpowered studies uitvoeren is onethisch en getuigt van een gebrek aan wetenschappelijke integriteit, of gebrekkige competentie (wat erger is is natuurlijk up for discussion :-)). Het is onethisch omdat je tijd en energie van deelnemers vraagt, en vaak ook nog publieksmiddelen, voor onderzoek dat praktisch waardeloos is. Het is niet integer omdat je veel kans loopt om Type 1 fouten te maken en grote effect sizes te vinden (met kleine steekproeven is de steekproevenverdeling breder, waardoor de kans op grote effect sizes in je steekproef, aangenomen dat de ware effect size in de populatie 0 is, groter is dan bij grote steekproeven). Dus, je moet/mag nooit kleine steekproeven gebruiken. Als je een pilot doet, moet je om die reden nooit je data analyseren; je kunt geen indicatie krijgen van effect sizes of of een manipulatie kans van slagen heeft als je underpowered bent. Het doel van pilots is om je set-up en procedure te testen, niet een 'preview' van mogelijke data te krijgen.

Een kleine steekproef kan dus nooit een argument zijn voor andere (meer liberale) interpretatie van je uitkomsten!!!

</rant> smiley

Als je interactie niet significant is, is er dus geen interactie. De variantie die nu door je interactie wordt geclaimed, en de overlap in variantie tussen je interactie en je hoofdeffecten, leidt dus onterecht tot een power-verlies van je hoofdeffecten. Zelfs als je een orthogonaal design hebt is er geen mogelijk negatief gevolg van het verwijderen van een interactie. Als iets wordt toegewezen aan A/B, is dat 'ten rechte', niet ten onrechte - anders was je interactie immers significant geweest. En als je underpowered bent, geeft dat je niet het recht om non-significantie als significantie te interpreteren. Als je wel voldoende powered bent, heb je of een populatie waar die interactie niet bestaat, of de gepubliceerde interacties die je in je steekproef tegenkwam zijn een manifestatie van Publication Bias.

Als je interactie niet significant is, bestaat ze niet in de populatie. Aangenomen dat je voldoende powered bent. Je mag nooit veronderstellen dat iets dat niet significant is, toch bestaat. Ook niet als je een kleine steekproef hebt.

Daarom mag je nooit onderzoek doen met kleine steekproeven. Elke between-subjects studie met minder dan honderd deelnemers is underpowered. Gooi maar eens in R:

> install.packages('pwr');

> require(pwr);

> pwr.t.test(d=.5, power=.80);

     Two-sample t test power calculation

              n = 63.76561
              d = 0.5
      sig.level = 0.05
          power = 0.8
    alternative = two.sided

NOTE: n is number in *each* group

> pwr.r.test(r=.3, power=.80);

     approximate correlation power calculation (arctangh transformation)

              n = 84.74891
              r = 0.3
      sig.level = 0.05
          power = 0.8
    alternative = two.sided


En dit is voor een power van 80% - dat is aan de magere kant. Voor een power van 90% heb je 113 mensen nodig voor een correlatie-analyse, en 170 voor een t-toets (in totaal, 85 per groep).

Dat vinden de meeste mensen niet leuk om te horen, maar jammer genoeg is er geen ontkomen aan . . .

En voor interacties heb je sowieso erg weinig power, dus dan wordt het nog iets, um, deprimerender :-)

Bedankt! Altijd fijn om te vernemen dat er nog veel meer valkuilen zijn om je onsterfelijk belachelijk te maken dan je al vermoedde smiley

Dus, ongeacht wat je vooraf in je theoretisch model formuleerde, hoe goed theoretisch ondersteund ook: als de interacties insignificant blijken in je steekproef (waarvan je de grootte bepaalde volgens de regels van de powerkunst), dan haal je ze uit de analyses.

Ik vermoed van wel, maar voor alle zekerheid toch even vragen: geldt dit alles ook voor regressie-analyses?

Luc

We doen onderzoek juist om onze theorieën tegen het licht te houden. Dus, natuurlijk haal je interacties uit je analyses als ze niet significant zijn - als je er omwille van de theorie ondanks dat gebrek aan significantie vanuit zou gaan dat ze toch bestaan, hoe kunnen we dan ooit iets leren? Als je toch geen conclusies gaat trekken op basis van je data, waarom zou je dan data verzamelen? :-)

En ja - dit geldt ook voor regressie-analyses. Door non-significante termen te verwijderen, verlaag je de multi-collineariteit (i.e. de samenhang tussen je voorspellers in hun voorspelling van de afhankelijke variabele), wat ook weer leidt tot powerwinst.

Sterker nog: eigenlijk zijn alle multivariate analyses een vorm van modelleren, en daar komt een hoop bij kijken wat dermate complex is dat je eigenlijk een beetje op moet passen met dat soort analyses, tenminste, voor 'real life onderzoek'. Er zijn bijvoorbeeld ook hele discussies over of je de Sums of Squares in Anova en Regressie moet corrigeren met het Type 3 Sums of Squares model, of Type 2, of 4, etc. De consensus is dat Type 3 meestal verkeerd is - en laat dat nu de default zijn in SPSS . . . Dus als je hier eenmaal induikt, ben je nog wel even bezig :-)
Bedankt voor de heldere uitleg. En een interessasnte discussie.

Mijn eerste twee hypothesen zijn gebaseerd op de hoofdeffecten, maar ik heb een significante interactie. Ik neem aan dat ik de hoofdeffecten wel netjes onder de resultaten moet vermelden. In de discussie moet ik de hypothesen wel behandelen, is het hier genoeg om te vermelden dat de hoofdeffecten niet relevant zijn door de significante interactie?
Als de interactie significant is, zijn de hoofdeffecten niet te interpreteren. Rapporteer ze (e.g. in een tabel) in je resultatensectie, maar draai daarna simple effects (i.e. per niveau van elk van de hoofdeffecten) om te kijken wat er eigenlijk gebeurt. Dus je gebruikt dan wat in SPSS 'Split File' heet, en je krijgt dan voor elk meetniveau van factor A een t-toets voor verschillen tussen de twee verschillende meetniveau's van factor B (en vice versa). Of, als het geen 2x2 design is, dan moet je sets oneway anova's gaan doen. Deze simple effects kunnen je dan helpen om te bepalen of de main effects gewoon misleidend zijn of toch nog een beetje informatief.

En jij ook bedankt voor de discussie :-)
...