Een covariaat in een linear model wordt in isolatie bekeken, althans de isolatie wordt geforceerd. Het effect van covariaat A wordt getoetst door het effect van covariaat B op 'nul' te zetten. Als de covariaten alleen een verband met Y hebben, en niet met X, én de correlatie tussen covariaten is niet nagenoeg 1, dan moet het geen nadelige gevolgen hebben om de twee covariaten op te nemen in het model.
Geen nadelige gevolgen is niet helemaal waar, want voor iedere extra variabele in een model moet gepowered worden (a-priori). Maar dat laat ik voor de eenvoud buiten de discussie.
Van belang wordt dan vooral de formulerig van de hypothese. Als het noodzakelijk is om de groei, of afname van een variabele te kwantificeren, dan wordt deze moeilijker te interpreteren als er voor covariaten gecorrigeerd wordt. Het maakt niet uit of de voormeting als covariaat is opgenomen, of als een repeated measure. Iedere covariaat verandert de interpretatie van de uitkomst. Het helpt dan om steeds als een soort mantra overdreven correct de uitkomsten te interpreteren als 'het effect van X op Y als het effect van C1 en C2 op nul staan is...' 'het effect van C1 op Y als X en C2 op nul staan is...'
Als dit tot een zinvolle interpretatie leidt, dan is er geen probleem. Als je merkt dat dit tot een kriebel in de rug leidt, dan loont het om even te kijken naar de keuze van covariaten of hun schaal. Bijvoorbeeld:
Niet altijd is 'nul' een goed getal om iets op te zetten. Stel dat IQ loopt op een schaal van 70-120 in een gegeven dataset. Het effect van X als IQ op nul staat is dan lastig te verkopen. Als IQ echter gestandaardiseerd is, dus M = 0 en SD = 1, dan betekent 'nul' in dit geval 'gemiddeld'. De interpretatie die dit oplever: 'het effect van X op Y als IQ gemiddeld is...'. betekent enerzijds heel iets anders dan wat we normaal onder 'nul' denken te verstaan, maar tegelijkertijd is het een zinvollere interpretatie.
Ik zou me in PB0412 nog niet druk maken om die laatste alinea. Dit is meer ter info en verdieping. De take-away message, de TLDR is: neem zoveel covariaten op als theoretisch verantwoord kunnen worden, zinvol zijn, en voor gepowered is, of die powertechnisch verantwoord kunnen worden. Bij twee covariaten, zal er niet zo snel een probleem hoeven zijn, maar soms zie je studies met 10 of meer covariaten, en dan heeft de onderzoeker wel wat uit te leggen.