Je kunt geen conclusies trekken over een verschil tussen twee effectgroottes op basis van puntschattingen. Beide schattingen zijn in een andere steekproef weer anders. Je moet dus een indruk hebben van hoe accuraat de schattingen zijn. Als je een duidelijk theoretisch kader had waaruit voorspellingen volgen over het verschil tussen die twee effectgroottes kun je een toetsingskader gebruiken, zoals nulhypothesesignificanttoetsing. Als je dat niet had kun je ook inferentiele criteria opstellen, bijvoorbeeld op basis van betrouwbaarheidsintervallen, of je kunt Bayesian statistiek gebruiken. In zo'n analyseplan moet je dan, al je kwalitatieve labels aan verschillen wil plakken, specificeren welk verschil welk label krijgt.
Daar bestaan geen algemene richtlijnen voor, omdat hoe groot een verschil tussen effectgroottes is heel erg verschilt per context (net als dat gebruik van richtlijnen voor effectgroottes steeds meer wordt afgeraden als er contextuele informatie beschikbaar is).
Als je "klein verschil" langs zag komen, zal dat dus een label zijn dat in een specifieke context is gegeven; de categorieen die daar zijn gebruikt hoeven buiten die context dus niet toepasbaar te zijn.
Als je zelf een verschil tussen effectgroottes hebt, denk dan goed na over 1) hoe accuraat die schattingen zijn en druk dat uit, bijvoorbeeld met betrouwbaarheidsintervallen, en 2) denk na over wanneer dat verschil groot of klein is. Als je geen kader hebt om zulke kwalitatieve labels te bepalen, dan zou ik ook gewoon geen kwalitatieve labels toekennen.