Ik schaar mij achter het advies van gjp: de begeleider is in de eerste plaats verantwoordelijk voor de analysekeuze en de ondersteuning daarbij.
Misschien wel handig om op zak te hebben:
Er zijn uiteinlopende methoden om de overeenkomst tussen beoordelaars vast te stellen. Wat je in de vraag beschrijft is iets dat vaak een 'interbeoordelaarsbetrouwbaarheid' genoemd wordt. Hoe deze getoetst wordt hangt af van het type data (meetniveau), maar ook van de specificiteit van de hypothese.
Als bijvoorbeeld exacte overeenkomst noodzakelijk is. Bijvoorbeeld of een specifiek gedrag dezelfde beoordeling krijgt, of dat meerdere beoordelaars exact even vaak een bepaald gedrag observeren, dan zijn de kappa maten geschikt. Bij twee beoordelaars bijvoorbeeld de Cohen's kappa
Als de vraag minder precies is, en de vraag is meer of er een voldoende overeenkomst is, dan zijn de kappamaten ongeschikt, en kun je beter naar correlaties kijken. Hier is het meetniveau leidend. Als de schaal interval of ratio is, dan is een pearson correlatie in de regel de juiste maat. Bij ordinale data kendall's tau of spearman's rho. Denk dus goed na over het meetniveau van je data als je leerkrachten laat turven hoe vaak iets zich voor lijkt te doen.
Een flexibele techniek is het gebruiken van de ICC (intraclass correlation) als maat voor interbeoordelaar samenhang. Deze techniek is sterker dan de correlaties an sich, omdat het ook rekening kan houden met de verschillende segmenten die beoordeeld worden. Deze techniek vereist voorkennis van multilevelanalyse. Lees voor deze techniek misschien wel eerst Muller en Buttner (1994) voor een goed overzicht welke methode voor je hypothese en data geschikt is, want niet altijd is een ICC zinvol
Müller, R., & Büttner, P. (1994). A critical discussion of intraclass correlation coefficients. Statistics in Medicine, 13(23‐24), 2465-2476.