Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

0 leuk 0 niet-leuks

In het tweede boek in de Visible learning reeks stelt John Hattie (2012) dat "for students moving from one year to the next, the average effect size across all students is 0.40" (p. 272). Hij baseert zich voor deze uitspraak op allerlei internationale onderzoeken (PIRLS, PISA, TIMSS...) Als na een of andere maatregel een effectgrootte d = 0.5 werd gevonden, dan zou de experimentele groep volgens Hattie dus meer vooruit zijn gegaan dan de gemiddelde leerling op 1 schooljaar (want die gaat maar 0.4 standaarddeviaties vooruit).

Ik las net echter een artikel (Lee, Finn & Liu, 2012) dat dit beeld flink nuanceert. Zowel voor lezen als voor rekenen zou volgens deze auteurs de vooruitgang op 1 jaar, uitgedrukt in z-scores, zeer sterk afhangen van het leerjaar waarin de leerlingen zich bevinden. In de kleuterschool en bij de aanvang van de lagere school zou de vooruitgang op een jaar meer dan 1 SD bedragen, maar dit daalt behoorlijk in de latere jaren (Hattie baseert zich op studies die plaatsvinden in hogere leerjaren). Een effectgrootte van 0.5 in een eerste leerjaar (NL: Groep 3) of een kleuterklas komt overeen met slechts een paar maanden op school! Lee et al. vinden daarom dat "Time-indexed effect sizes" (d.w.z. d gecorrigeerd voor de gemiddelde 'leersnelheid' op een bepaalde leeftijd in een bepaald domein) veel makkelijker te interpreteren zijn.

Nu vraag ik me af wat dit betekent voor de rangschikkingen die Hattie pleegt op te stellen. In het eerste boek (Hattie, 2009) rapporteerde hij bijvoorbeeld zeer grote effectgroottes voor versnelling (d = 0.88) of voor "Piagetian programs" (d = 1.28). Dit lijken twee zaken die vooral onderzocht zijn bij jongere kinderen (de meeste kinderen die versnellen, doen dit bijvoorbeeld in de kleuterschool of de eerste jaren van de lagere school). Veel lager in zijn ranglijst komt dan bijvoorbeeld "concept mapping" (d = 0.57). Men kan vermoeden dat dit onderzocht werd bij veel oudere leerlingen.

Helaas rapporteert hij nergens (gemiddelde) leeftijden van de leerlingen opgenomen in de onderzoeken.

Ik heb veel zin om eens een mailtje aan Hattie te sturen om naar zijn mening te vragen. Als iemand van jullie een mening heeft over de kwestie, dan hoor ik die graag!

PS voor de liefhebbers: het derde boek in de reeks (Hattie & Yates, 2014) is warm (heet zelfs) aan te bevelen.

 

Hattie, J. (2009). Visible learning : a synthesis of over 800 meta-analyses relating to achievement. London ; New York: Routledge.

Hattie, J. (2012). Visible learning for teachers : maximizing impact on learning. London; New York: Routledge.

Hattie, J. & Yates, G. (2014). Visible learning and the science of how we learn. London; New York: Routledge.

Lee, J., Finn, J. & Liu, X. (2012). Time-indexed Effect Size for P-12 Reading and Math Program Evaluation. Paper gebracht op Educational Effectiveness (SREE) spring 2012 conference, Washington, DC. Verkregen van http://gse.buffalo.edu/faculty/centers/ties

 

in Methodologie door (7.9k punten)
bewerkt door

Blijkbaar hadden anderen eerder al gelijkaardige (en andere!) kanttekeningen geplaatst bij het gebruik van effectgroottes: http://www.mdrc.org/publication/empirical-benchmarks-interpreting-effect-sizes-research  Ik vond dit een erg interessant artikel. Mijn zorgen over Hatties "rangschikkingen" zijn nu nog wat groter geworden: een effectgrootte zonder de context zegt bitter weinig.

"one effect size rule of thumb does not and cannot fit all"

2 Antwoorden

0 leuk 0 niet-leuks

Nog wat gezoek bracht me op http://ollieorange2.wordpress.com/

Op 26 januari werden daar dezelfde bemerkingen geuit. Dit blog klinkt wel erg gechargeerd ("The Age effect which means the 0.40 threshold is nonsense"), het gaat er geregeld behoorlijk ad hominem aan toe. De pagina's geven echter wel uiting aan heel wat zorgen die ik me de laatste jaren maakte over Hatties effectgroottes.

door (7.9k punten)
0 leuk 0 niet-leuks

Wel, hier zijn twee antwoorden op:

1) de betekenis van een effectsize is altijd hetzelfde. Cohen's d is bijvoorbeeld altijd het verschil tussen gemiddelden uitgedrukt in standaard deviaties.

2) de relevantie van een effectsize altijd anders, want altijd afhankelijk van context.

Dit is waarom Cohen, en iedereen eigenlijk, tentatief omspringt met de kwalitatieve grenzen (ook omdat onderzoek altijd intervals oplevert, nooit puntschattingen - tenminste, nooit puntschattingen met enige zekerheid - waardoor punt-grenzen, zeg maar, weinig waarde hebben).

In de ene context kan een klein verschil van grote betekenis zijn; in een andere context kan het verwaarloosbaar zijn. Het proberen om de context te verwerken in effect sizes kan dus zinvol zijn - tegelijkertijd worden de effectsizes daarmee minder bruikbaar, want ze zijn niet langer te vergelijken met andere studies.

Er zijn daarom pleidooien voor ruwe effectsizes. Rapporteer gewoon de gemiddelden, en het verschil tussen genmiddelden. Dat lost dit probleem deels op - maar je verliest de vergelijkbaarheid met studies die andere instrumenten gebruikten, of in iets andere populaties, etc.

Dus enerzijds klopt het dat effectsizes steeds iets anders 'betekenen' - de interpretatie vindt immers, zoals altijd, plaats in een context, en die verschilt per definitie steeds. Anderzijds klopt het niet - een correlatie is een correlatie.

door (77.8k punten)
...