Ik heb gegevens verzameld van 2 opdrachten met 36 en 37 participanten, beoordeeld aan de hand van een rubric met 4 toetscriteria. Van ieder participant heb ik geslacht, 4x een score op toetscriteria 1 t/m 4 bij docent RC, een cijfer bij RC, 4x een score op toetscriteria 1 t/m 4 bij docent WE, een cijfer bij WE.
Voor analyse heb ik de correlaties tussen de scores en het cijfer van docent RC vergeleken met die van docent WE, voor inter-rater reliability.
Dat levert Pearson's r op: uit cursus OU 2014 Kwantitatieve Data-Analyse, bron Samenhang tussen twee variabelen: correlatieanalyse, blad 4, maak ik de waarden op: .10-.40 zwak positief, .40-.70 middelmatig positief, .70-.90 sterk positief;
VRAAG: welke conclusie kan ik verbinden aan waarden van Pearson's r: dat een sterk positief verband wijst op een samenhang tussen scores en als dat het geval is dat het toetscriterium uit de rubric dus een geschikt criterium is?
Daarnaast heb ik met dezelfde gegevens de ICC (IntraClass Correlation) berekend, model two-way mixed, type absolute agreement en ook type consistency; de hoogst gevonden ICC's liggen tussen .600 en .700; er zijn er twee boven .700, nl. .739 en .750;
VRAAG: hoe moet ik die gevonden waardes interpreteren? Is een waarde tussen .600 en .700 bruikbaar als indicatie dat de twee scores van de raters op een toetscriterium uit de rubric wijzen op de geschiktheid van het toetscriterium?
VRAAG: Is er nog een andere statistische analyse mogelijk voor deze gegevens, om reliability te bekijken?