Dit is een site voor studenten van de Open Universiteit. Voordat je een vraag kunt stellen moet je even een account aanmaken (dit systeem is niet gekoppeld aan je OU studentnummer en wachtwoord).

Welkom bij het vraag- en antwoord systeem van de onderzoeks-practica van de studie psychologie bij de Open Universiteit.

Houd er, als je een vraag stelt, rekening mee dat je de richtlijnen volgt!

Waarom worden de termen PCA en PFA door elkaar gebruikt terwijl dit verschillende methoden zijn?

0 leuk 0 niet-leuks

In bron 4: Eploratieve Factoranalyse met SPSS van de cursus psychologisch survey worden op blz. 28 de termen PCA en PFA door elkaar gebruikt terwijl bij de figuur staat dat er een PFA is gebruikt. Dit is erg verwarrend. Ik dacht na het doornemen van H.17 Andy Field het verschil wel duidelijk voor ogen te hebben. De tekst op die blz. 28 uit de bron klinkt als volgt: (dikgedrukte termen zijn voor mij verwarrend):

In het onderhavige voorbeeld zijn er zes geobserveerde variabelen waardoor
er maximaal zes componenten getrokken kunnen worden. Dat
zien we in het linker gedeelte van de tabel ‘Total Variance Explained’
van de figuren 1a en 1b, waarin de resultaten van een PCA zij n weergegeven
(zie het onderdeel ‘Initial Eigenvalues’). In fi guur 1 zij n de resultaten
van een Principal Axis Factoring (PFA) gepresenteerd van zowel
het eenfactormodel als het tweefactorenmodel, waaraan te zien is dat in
beide analyses exact dezelfde resultaten van een PCA zij n opgenomen
bij ‘Initial Eigenvalues’. Het is gebruikelij k om een scree-plot te maken
van de eigenwaarden die verkregen zij n via PCA (zie fi guur 1c); die van
de PFA zullen altij d lager uitvallen, zo ook in dit geval.

 

gevraagd 1 mei 2015 in Psychologisch Survey (PS) door Micster (1,080 punten)
heropend 1 mei 2015 door gjp
Zou je dat antwoord misschien ook kunnen delen? Anders is het zo frustrerend voor andere studenten die diezelfde vraag hebben :-)

1 Antwoord

1 leuk 0 niet-leuks
 
Beste antwoord
Zover ik het begrijp.. laat het venster total variance explained zien hoeveel variantie verklaard wordt door elk component... het aantal componenten is het aantal items dat je in de analyse betrekt. Opgeteld verklaren ze 100% van de variantie. Bij een componentenanalyse wil je zoveel mogelijk variantie verklaren met zo min mogelijk items. Als je echter zoveel mogelijk gedeelde variantie wilt verklaren moet je principale factoranalyse gebruiken. Correct me if im wrong
beantwoord 1 mei 2015 door Micster (1,080 punten)
geselecteerd 4 mei 2015 door Micster

Dit is perfect, heel goed! Bij componentenanalyse probeer je alle variantie (de volledige covariantiematrix) te verklaren. Bij factoranalyse alleen de gedeelde variantie (je vervangt in de covariantiematrix dan, geleidelijk, tijdens herhalingen van de analyse, de diagonaal door je schattingen voor het deel van zijn variantie dat elke variabele deelt met de andere items).

Dit vertaalt zich naar twee aannames (voor zover we het over psychologisch vragenlijsten onderzoek hebben):

  1. Als je PCA doet neem je aan dat je items allemaal uitsluitend een onderliggende variabele van belang meten (en dus geen (aspecten van) variabelen waar je niet in bent geinteresseerd;
  2. Als je PCA doet neem je aan dat de items geen meetfout hebben.

Immers, je probeert de eigen variantie van elk item ook te verklaren. Die unieke variantie van een item (dat deel dat het item dus deelt met geen enkel ander item, uniciteit) kan uit drie dingen bestaan:

  1. Een aspect van de onderliggende ('latente') variabele die door geen enkele ander item wordt gemeten;
  2. Een andere variabele (of een aspect van een andere variabele) die door geen enkele ander item wordt gemeten;
  3. Meetfout (die ongecorreleerd is met de meetfout van andere items, dus meetfout die specifiek is voor dit item, of volledig random is)

Die aannames zijn meestal niet houdbaar; in de psychologie hebben we nu eenmaal meetfout op elk item. Als je dus op zoek bent naar onderliggende variabelen, moet je altijd factoranalyse toepassen, geen componentenanalyse.

En dan kun je ook nog je correlatiematrix of je covariantiematrix analyseren. Zoals je misschien nog weet heeft je correlatiematrix op de diagonaal (waar bij de covariantiematrix de varianties van de items staan) allemaal 1-en staan. En zoals je misschien nog weet hebben gestandaardiseerde variabelen (items) een gemiddelde van 0 en een standaarddeviatie van 1. En zoals je misschien nog weet is de variantie van een variabele (item) de standaard-deviatie van dat item in het kwadraat:

$$MS=\sigma^2$$

En zoals je misschien nog weet bereken je de correlatie tussen twee items door de covariantie te corrigeren voor de meetschalen waarom de items zijn gemeten:

$$r_{xy}=\frac{cov_{xy}}{\sigma_x \sigma_y}$$

Als je al die stukjes informatie combineert zie je dat een correlatiematrix eigenlijk ook een covariantiematrix is, alleen dan met gestandaardiseerde items. Immers, als je items zijn gestandaardiseerd zijn alle standaarddeviaties 1. De formule voor de correlatie wordt dan:

$$r_{xy}=\frac{cov_{xy}}{\sigma_x \sigma_y}=\frac{cov_{xy}}{1 \cdot 1}=cov_{xy}$$

Dus de correlatiematrix is eigenlijk niets anders dan een gestandaardiseerde covariantiematrix (en dat 'gestandaardiseerd' betekent dus dat de informatie over de schalen is verwijderd; de items zijn gestandaardiseerd naar dezelfde schaal).

Het verschil tussen de correlatie- of de covariantiematrix gebruiken is dus of de verschillende schalen van de items informatie bevatten. Items met meer variantie tellen zwaarder mee als je de covariantiematrix analyseert (want die vormen een groter deel van de totale variantie, en die probeer je zo goed mogelijk te verklaren). Als de varianties (meetschalen) van de items niet belangrijk zijn, wat in de psychologie meestal het geval is (je hebt meestal overal bijvoorbeeld schalen van 1-7, en je veronderstelt dat alle items ongeveer evenveel variantie hebben, behoudens toeval/meetfout), analyseer je dus de correlatiematrix.

Hartstikke bedankt voor het antwoord, helemaal duidelijk :)
...