De betekenis van effectgrootte: afhankelijk van de leeftijd?

Question

De betekenis van effectgrootte: afhankelijk van de leeftijd?

In het tweede boek in de Visible learning reeks stelt John Hattie (2012) dat "for students moving from one year to the next, the average effect size across all students is 0.40" (p. 272). Hij baseert zich voor deze uitspraak op allerlei internationale onderzoeken (PIRLS, PISA, TIMSS...) Als na een of andere maatregel een effectgrootte d = 0.5 werd gevonden, dan zou de experimentele groep volgens Hattie dus meer vooruit zijn gegaan dan de gemiddelde leerling op 1 schooljaar (want die gaat maar 0.4 standaarddeviaties vooruit).

Ik las net echter een artikel (Lee, Finn & Liu, 2012) dat dit beeld flink nuanceert. Zowel voor lezen als voor rekenen zou volgens deze auteurs de vooruitgang op 1 jaar, uitgedrukt in z-scores, zeer sterk afhangen van het leerjaar waarin de leerlingen zich bevinden. In de kleuterschool en bij de aanvang van de lagere school zou de vooruitgang op een jaar meer dan 1 SD bedragen, maar dit daalt behoorlijk in de latere jaren (Hattie baseert zich op studies die plaatsvinden in hogere leerjaren). Een effectgrootte van 0.5 in een eerste leerjaar (NL: Groep 3) of een kleuterklas komt overeen met slechts een paar maanden op school! Lee et al. vinden daarom dat "Time-indexed effect sizes" (d.w.z. d gecorrigeerd voor de gemiddelde 'leersnelheid' op een bepaalde leeftijd in een bepaald domein) veel makkelijker te interpreteren zijn.

Nu vraag ik me af wat dit betekent voor de rangschikkingen die Hattie pleegt op te stellen. In het eerste boek (Hattie, 2009) rapporteerde hij bijvoorbeeld zeer grote effectgroottes voor versnelling (d = 0.88) of voor "Piagetian programs" (d = 1.28). Dit lijken twee zaken die vooral onderzocht zijn bij jongere kinderen (de meeste kinderen die versnellen, doen dit bijvoorbeeld in de kleuterschool of de eerste jaren van de lagere school). Veel lager in zijn ranglijst komt dan bijvoorbeeld "concept mapping" (d = 0.57). Men kan vermoeden dat dit onderzocht werd bij veel oudere leerlingen.

Helaas rapporteert hij nergens (gemiddelde) leeftijden van de leerlingen opgenomen in de onderzoeken.

Ik heb veel zin om eens een mailtje aan Hattie te sturen om naar zijn mening te vragen. Als iemand van jullie een mening heeft over de kwestie, dan hoor ik die graag!

PS voor de liefhebbers: het derde boek in de reeks (Hattie & Yates, 2014) is warm (heet zelfs) aan te bevelen.

Hattie, J. (2009). Visible learning : a synthesis of over 800 meta-analyses relating to achievement. London ; New York: Routledge.

Hattie, J. (2012). Visible learning for teachers : maximizing impact on learning. London; New York: Routledge.

Hattie, J. & Yates, G. (2014). Visible learning and the science of how we learn. London; New York: Routledge.

Lee, J., Finn, J. & Liu, X. (2012). Time-indexed Effect Size for P-12 Reading and Math Program Evaluation. Paper gebracht op Educational Effectiveness (SREE) spring 2012 conference, Washington, DC. Verkregen van http://gse.buffalo.edu/faculty/centers/ties

gevraagd 23 mei 2014 in Methodologie door Luc Kumps (7.9k punten)
bewerkt 23 mei 2014 door Luc Kumps

2 Antwoorden

Luc Kumps · Answer 1 · 2014-05-23T14:30:55+0000

Nog wat gezoek bracht me op http://ollieorange2.wordpress.com/

Op 26 januari werden daar dezelfde bemerkingen geuit. Dit blog klinkt wel erg gechargeerd ("The Age effect which means the 0.40 threshold is nonsense"), het gaat er geregeld behoorlijk ad hominem aan toe. De pagina's geven echter wel uiting aan heel wat zorgen die ik me de laatste jaren maakte over Hatties effectgroottes.

gjp · Answer 2 · 2014-06-13T09:00:02+0000

Wel, hier zijn twee antwoorden op:

1) de betekenis van een effectsize is altijd hetzelfde. Cohen's d is bijvoorbeeld altijd het verschil tussen gemiddelden uitgedrukt in standaard deviaties.

2) de relevantie van een effectsize altijd anders, want altijd afhankelijk van context.

Dit is waarom Cohen, en iedereen eigenlijk, tentatief omspringt met de kwalitatieve grenzen (ook omdat onderzoek altijd intervals oplevert, nooit puntschattingen - tenminste, nooit puntschattingen met enige zekerheid - waardoor punt-grenzen, zeg maar, weinig waarde hebben).

In de ene context kan een klein verschil van grote betekenis zijn; in een andere context kan het verwaarloosbaar zijn. Het proberen om de context te verwerken in effect sizes kan dus zinvol zijn - tegelijkertijd worden de effectsizes daarmee minder bruikbaar, want ze zijn niet langer te vergelijken met andere studies.

Er zijn daarom pleidooien voor ruwe effectsizes. Rapporteer gewoon de gemiddelden, en het verschil tussen genmiddelden. Dat lost dit probleem deels op - maar je verliest de vergelijkbaarheid met studies die andere instrumenten gebruikten, of in iets andere populaties, etc.

Dus enerzijds klopt het dat effectsizes steeds iets anders 'betekenen' - de interpretatie vindt immers, zoals altijd, plaats in een context, en die verschilt per definitie steeds. Anderzijds klopt het niet - een correlatie is een correlatie.

Categorieën

De betekenis van effectgrootte: afhankelijk van de leeftijd?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.

Gerelateerde vragen

Categorieën

De betekenis van effectgrootte: afhankelijk van de leeftijd?

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om deze vraag te beantwoorden.

2 Antwoorden

Aub. inloggen or registreren om een opmerking te plaatsen.

Aub. inloggen or registreren om een opmerking te plaatsen.