Ik zou dit zelf benaderen vanuit de steekproevenverdeling van het gemiddelde.
Als je parallele items wil hebben (e.g. als je wil voldoen aan 'tau equivalentie', bijvoorbeeld omdat je coefficient Alpha wil berekenen), moeten de items herhaalde metingen zijn van hetzelfde, en dan moeten ze inderdaad dezelfde gemiddelden hebben.
Tegelijkertijd weet je dat als de items eigenlijk exacte replicaties zijn, dat je dan toch verschillen tussen de gemiddelden gaat vinden, puur door toeval. Want, als de items exacte replicaties van elkaar zijn, dan is het gemiddelde van elk item afkomstig uit dezelfde steekproevenverdeling (met als gemiddelde het 'echte gemiddelde', dat dus hetzelfde is voor alle items).
Dus ik zou zeggen, kijk naar de standaardfouten van de items. Die zouden ongeveer gelijk moeten zijn (zonee, dan verschilt de spreiding dus aanzienlijk van item tot item). Maak vervolgens een histogram van de itemgemiddelden.
Ziet dat er ongeveer uit alsof ze normaal verdeeld zijn? Dan is het aannemelijk dat de 'ware itemgemiddelden' hetzelfde zijn.
Lijkt het daar niet op?
Dan is dat niet aannemelijk.
Overigens is het vaak niet zo dat de items dezelfde gemiddelden hebben: die aanname wordt vaker wel geschonden dan niet. Om die reden is coefficient Alpha (ook wel "Cronbach's Alpha") een slechte maat voor betrouwbaarheid, zie http://userfriendlyscience.com/reliability).