Beste Veerle,
Ik had gezien dat je deze vraag ook tijdens het vragenuurtje gisteren had gesteld. Ik heb 'm daar ook beantwoord (jij had toen echter de sessie al verlaten).
Hier nogmaals een antwoord: normaal verdeelde variabelen zijn geen doel op zich (het gaat erom dat de steekproevenverdeling normaal verdeeld is en daar mag je vanuit gaan bij steekproeven van voldoende omvang - dit volgt uit de centrale limietstelling). Je kijkt bij de data-screening o.a. naar de verdelingen van variabelen om iets te zeggen over data-integriteit, dus ziet je data eruit zoals je dit zou willen/verwachten of zijn er gekke dingen? Dus als je variabelen niet normaal verdeeld zijn, dan hoeft dat geen probleem te zijn. Het kan je wel erop wijzen dat er iets is misgegaan bijv. bij de dataverzameling. In het voorbeeld wat ik gisteren behandelde tijdens het vragenuurtje (relatie tussen leeftijd en gezondheidschadend gedrag) is de variabele leeftijd bijv. niet normaal verdeeld. Als ik naar die variabele kijk, dan zie ik dat er sprake is van een bimodale verdeling. Het gaat er hierbij niet zozeer om dat het een probleem is dat die verdeling niet normaal is. Het probleem in 'mijn' geval bij de leeftijdsvariabele is dat ik blijkbaar in mijn onderzoek weinig mensen van rond de 35 jaar heb geincludeerd. Dus daar moet ik dan over nadenken: wat kan er misgegaan zijn bij de dataverzameling dat ik zo weinig mensen heb van die leeftijd; kan dat de resultaten beinvloeden etc.
Het is dus niet meteen een no-go voor het uitvoeren van een ANOVA (want daarbij geldt dus dat het erom gaat dat de steekproevenverdeling normaal verdeeld moet zijn; zie verder het punt wat ik hierboven daarover maakte).
Groet Jenny van Beek