Dit is perfect, heel goed! Bij componentenanalyse probeer je alle variantie (de volledige covariantiematrix) te verklaren. Bij factoranalyse alleen de gedeelde variantie (je vervangt in de covariantiematrix dan, geleidelijk, tijdens herhalingen van de analyse, de diagonaal door je schattingen voor het deel van zijn variantie dat elke variabele deelt met de andere items).
Dit vertaalt zich naar twee aannames (voor zover we het over psychologisch vragenlijsten onderzoek hebben):
-
Als je PCA doet neem je aan dat je items allemaal uitsluitend een onderliggende variabele van belang meten (en dus geen (aspecten van) variabelen waar je niet in bent geinteresseerd;
-
Als je PCA doet neem je aan dat de items geen meetfout hebben.
Immers, je probeert de eigen variantie van elk item ook te verklaren. Die unieke variantie van een item (dat deel dat het item dus deelt met geen enkel ander item, uniciteit) kan uit drie dingen bestaan:
-
Een aspect van de onderliggende ('latente') variabele die door geen enkele ander item wordt gemeten;
-
Een andere variabele (of een aspect van een andere variabele) die door geen enkele ander item wordt gemeten;
-
Meetfout (die ongecorreleerd is met de meetfout van andere items, dus meetfout die specifiek is voor dit item, of volledig random is)
Die aannames zijn meestal niet houdbaar; in de psychologie hebben we nu eenmaal meetfout op elk item. Als je dus op zoek bent naar onderliggende variabelen, moet je altijd factoranalyse toepassen, geen componentenanalyse.
En dan kun je ook nog je correlatiematrix of je covariantiematrix analyseren. Zoals je misschien nog weet heeft je correlatiematrix op de diagonaal (waar bij de covariantiematrix de varianties van de items staan) allemaal 1-en staan. En zoals je misschien nog weet hebben gestandaardiseerde variabelen (items) een gemiddelde van 0 en een standaarddeviatie van 1. En zoals je misschien nog weet is de variantie van een variabele (item) de standaard-deviatie van dat item in het kwadraat:
$$MS=\sigma^2$$
En zoals je misschien nog weet bereken je de correlatie tussen twee items door de covariantie te corrigeren voor de meetschalen waarom de items zijn gemeten:
$$r_{xy}=\frac{cov_{xy}}{\sigma_x \sigma_y}$$
Als je al die stukjes informatie combineert zie je dat een correlatiematrix eigenlijk ook een covariantiematrix is, alleen dan met gestandaardiseerde items. Immers, als je items zijn gestandaardiseerd zijn alle standaarddeviaties 1. De formule voor de correlatie wordt dan:
$$r_{xy}=\frac{cov_{xy}}{\sigma_x \sigma_y}=\frac{cov_{xy}}{1 \cdot 1}=cov_{xy}$$
Dus de correlatiematrix is eigenlijk niets anders dan een gestandaardiseerde covariantiematrix (en dat 'gestandaardiseerd' betekent dus dat de informatie over de schalen is verwijderd; de items zijn gestandaardiseerd naar dezelfde schaal).
Het verschil tussen de correlatie- of de covariantiematrix gebruiken is dus of de verschillende schalen van de items informatie bevatten. Items met meer variantie tellen zwaarder mee als je de covariantiematrix analyseert (want die vormen een groter deel van de totale variantie, en die probeer je zo goed mogelijk te verklaren). Als de varianties (meetschalen) van de items niet belangrijk zijn, wat in de psychologie meestal het geval is (je hebt meestal overal bijvoorbeeld schalen van 1-7, en je veronderstelt dat alle items ongeveer evenveel variantie hebben, behoudens toeval/meetfout), analyseer je dus de correlatiematrix.