Goede vraag. Met, zoals alle goede vragen, geen eenvoudig antwoord :-)
Een confounder is gedefinieerd als een verstorende variabele. Een variabele die, als je er niet van op de hoogte bent, je de indruk kan geven dat er een verband bestaat tussen de variabelen die je onderzoekt - of het omgekeerde, een variabele die zorgt dat je een bestaand verband niet kunt detecteren. Een variabele kan een niet-bestaand verband simuleren of een bestaand verband maskeren als hij samenhangt met zowel je onafhankelijke variabele als je afhankelijke variabele.
Stel je voor dat je bijvoorbeeld een studie doet naar de effecten van sport op geluk. In de ene conditie doen proefpersonen niets; in de andere conditie sporten ze elke week drie keer. Na een half jaar meet je geluk bij je proefpersonen. Stel dat je proefpersonen zelf laat kiezen in welke conditie ze willen zitten. Als je dan na een half jaar vindt dat (bijvoorbeeld) de sportende proefpersonen gelukkiger zijn, is dat dan een reden om sport te promoten als methode om gelukkiger te worden?
Nee, want het is goed mogelijk dat de proefpersonen die ervoor kozen om in de sport-conditie te komen, sowieso al gelukkiger waren. Misschien zijn minder gelukkige mensen bijvoorbeeld ook minder geneigd om nieuwe initiatieven te ontplooien. Er zijn natuurlijk nog wel meer van dat soort mogelijke confounders te bedenken.
Jouw vraag is nu: hoe detecteer je confounders? Hoe weet je welke variabelen allemaal zo'n verborgen verstorend effect kunnen hebben? Jammer genoeg bestaat daar geen methode voor. Confounders zijn immers per definitie variabelen waarvan je niet op de hoogte bent. Op het moment dat je een variabele hebt gemeten, en dus de data hebt die je in staat stelt om te bepalen of het een mogelijke confounder is, moet je immers al een reden hebben gehad om die variabele te meten (waarschijnlijk een vermoeden dat het wel eens een confounder zou kunnen zijn).
Gelukkig is er wel een oplossing waarmee je kunt voorkomen dat confounders je conclusies kunnen versturen. Als je een experiment doet, waarbij je de onafhankelijke variabele manipuleert in twee of meer condities en je de proefpersonen randomiseert tussen die condities, sluit je daarmee uit dat er confounders zijn. Geen enkele variabele kan immers samenhangen met je onafhankelijke variabele: de groepen proefpersonen in elke conditie zijn equivalent. [1] Er kunnen natuurlijk nog steeds variabelen zijn die samenhangen met de afhankelijke variabele; maar dat is niet genoeg om je conclusies te kunnen verstoren.
Als je harde (causale) conclusies wilt trekken, moet je dus een experiment doen. Kan dat niet, en ben je beperkt tot een quasi-experiment, een survey, of een ander design? Duik dan goed in de literatuur, en denk goed na over mogelijke confounders. Meet ze, en kijk of ze samenhangen met je onafhankelijke variabele, en met je afhankelijke variabele. Zoja, neem ze dan mee als covariaat.
Om dit laatste nog even iets gedetailleerder te bespreken: als je een mogelijke confounder al hebt gemeten, en je wil weten of het een confounder is, dan kijk je dus eerst naar het verband met de onafhankelijke variabele, en dan naar het verband met de afhankelijke variabele. Dit doe je met de standaard bivariate toetsen, dus afhankelijke van de meetniveau's van je drie variabelen met een t-toets, een correlatie, een anova, of een non-parametrische toets. Als blijkt dat je potentiele confounder met zowel je onafhankelijke als je afhankelijke variabele samenhangt, dan neem je 'm mee als covariaat.
[1] Een voorwaarde is wel dat je groepen voldoende groot zijn! Als de groepen te klein zijn, is er alsnog een grote kans dat je met non-equivalente groepen eindigt.