Wanneer gebruik je factoranalyse?

Factoranalyse is niet één techniek, maar staat voor een hele groep samenhangende technieken. Daarvan wordt in dit artikel een eerste indruk gegeven. Alle typen factoranalyses zijn bedoeld voor een beter overzicht van het aantal mogelijke invloeden op een bepaalde variabele door gepaste reductie van die invloeden. In wetenschappelijke termen gezegd: welke factoren zijn vooral van invloed op het hoofdonderwerp van onderzoek, en zijn er in die factoren bepaalde ‘families’ aan te wijzen?

Factoranalyse kan in een groot aantal wetenschapsgebieden worden gebruikt, zowel in de sociale wetenschappen als natuurwetenschapen. Een onderzoeker kan benieuwd zijn naar de factoren die de prijs van olie bepalen, of factoren die van invloed zijn op de arbeidsmotivatie van bepaalde groepen medewerkers.

Ee zijn twee belangrijke vormen van factoranalyse:

1 - Voorbereidend of preparatief gebruik

Uit de veelheid van variabelen die in de wetenschappelijke literatuur worden genoemd, wil de onderzoeker een kleiner aantal variabelen uitfilteren of zelfs bepaalde variabelen combineren. Deze nieuwe (groep) variabelen heten dan factoren. Met deze factoren volgt dan een volgende ronde van analyse.

2 - Substantieel gebruik

Als onderzoeker wil je weten of er bepaalde patronen zitten in de wirwar van onderzochte variabelen. Anderzijds wil je weten of er gemeenschappelijke punten zijn waarmee de verschillende variabelen zich tot elkaar verhouden. Het kan ook zijn dat de variabelen langs bepaalde, nog niet ontdekte dimensies opeens een heel duidelijke patroon krijgen.

Zoals je ziet is factoranalyse breed te gebruiken. Als je maar vakinhoudelijk goed weet waarvoor je het gebruikt.

Het principe van factoranalyse

Factoranalyse is een hulpmiddel om een statistisch model te vinden waarin hypothetische variabelen vertegenwoordiger worden van bepaalde, andere variabelen. Deze laatste zijn dan of in een experiment gemeten variabelen of empirisch waargenomen variabelen.

Schematisch weergegeven ziet het principe er zo uit:

Factoranalyse schema 1

Uit de veelheid van X-variabelen wordt het model gereduceerd tot A en B. Daarbij zie je dat variabelen X1, X2 en X3 vooral verantwoordelijk zijn voor het verschijnsel A, en variabelen X4, X5 en X6 voor het verschijnsel B.

Als voorbeeld kun je denken aan de aantrekkelijkheid om ergens te gaan werken, maar ook de aantrekkelijkheid om ergens te blijven werken. Ofwel, ‘boeien’ en ‘behouden’. De groep variabelen X1, X2 en X3 zijn van invloed op het al dan niet gaan solliciteren bij een bepaalde instelling. De variabelen X4, X5 en X6 bepalen of iemand al binnen drie maanden weggaat of er tien jaar blijft werken. De eerste factor is interessant voor de recruiter; de tweede zegt iets over personeelsverloop en effectief HR-management.

In dit schema zijn A en B dan de hypothetische variabelen die inspelen op de empirische variabelen. Dat wil zeggen dat de opvattingen over boeien en behouden (hypothese) worden vergeleken met de praktische feiten (empirie), zoals de daadwerkelijk opgegeven redenen voor het gaan solliciteren of redenen voor het daadwerkelijke personeelsverloop. Voor ons voorbeeld is de onderzoeker dus benieuwd naar de score op de belangstelling om ergens te gaan werken en de scores voor de redenen daarvoor. Daarnaast de score op de belangstelling om weg te gaan of te blijven werken (personeelsverloop) bij die instelling, met scores voor de redenen daarvoor.

Stappen bij het maken van een factoranalyse

In deze uitleg wordt gemakshalve verwezen naar statistische vaktermen die bekend zijn. Voor de uitleg van het maken van een factoranalyse gaan we niet in op een concreet inhoudelijk voorbeeld. De aandacht gaat vooral naar de praktische verwerking en analyse van data. Wat deze data voorstellen, mag ieder voor zichzelf verzinnen. Vul dus zelf in wat je objecten zijn, zoals proefpersonen in een experiment, artikelen in de supermarkt of vrachtwagens met een bepaald transportvermogen. De hele onderzoeksgroep of het totaal van objecten is de waarde n = aantal objecten. Over deze objecten formuleer je de te onderzoeken variabelen.

De variabelen moeten gestandaardiseerd zijn. Dat wil zeggen dat de variantie van elke variabele gelijk is aan S=1.

Voor het volgende deel is het op de eerste plaats van belang om je goed af te vragen wat het doel van het onderzoek is. In onderzoek spelen vooral de volgende ‘doelen’ een hoofdrol:

  • Variantie verklaren: maximale verklaring voor de totale variantie van de scores die de objecten op de variabelen hebben.

  • Snoeien: veelheid van mogelijke factoren terugbrengen naar een minimaal aantal factoren.

  • Sorteren: factoren die stuk voor stuk staan voor een eigensoortige bron van variantie.

  • Praktisch nut: opsporen van factoren met een hoog theoretisch of praktisch gehalte.

Variantie verklaren en snoeien spreken voor zich. Bij sorteren noemen we als voorbeeld dat de belangstelling voor een bepaald bedrijf om te solliciteren ook bepaald kan worden door de algemene arbeidsmarkt of de aantrekkelijkheid van een bepaalde stad. Als er weinig vraag naar personeel is of als er geen woning is te betalen, heb je maar weinig te kiezen. Als er veel vraag is naar personeel en er zijn woningen in overvloed, kan het keuzevraagstuk zelf voor een bepaalde instelling makkelijk veel belangrijker worden.

Bij praktisch nut kun je denken aan een belangrijke theoretische vraag, zoals factoren die bepalend waren voor de onderwerpkeuze in de schilderkunst in de 17e eeuw. Of een hoog praktisch gehalte, zoals factoren die bepalend zijn voor de bestrijding van armoede in de grote steden.

Stap 1 - Aanmaken van een scorematrix

Je hebt een onderzoeksdoel en een onderzoeksvraag uitgewerkt. Voor de objecten in je onderzoeksgroep doe je óf observaties óf verricht je experimentele metingen. Deze observaties of metingen worden dan scores op de eerder bepaalde variabelen. Voor het aantal objecten noteer je de waarde n = … en voor het aantal variabelen noteer je de waarde p = ….

De scores op de p-variabelen over de n-objecten verwerk je in een scorematrix:

Tabel 1 scorematrix

Stap 2 - Omzetting scorematrix in correlatiematrix

In de factoranalyse ben je op zoek naar het patroon van de samenhang tussen de onderzochte variabelen. Statistische verbanden over het geheel van variabelen vind je door eerst binnen elk paar variabelen afzonderlijk te bepalen hoe sterk die samenhang is. Voor deze samenhang wordt in het algemeen gebruik gemaakt van de correlatie volgens Pearson ofwel de product-momentcorrelatie.

Je berekent dus uit de scores voor variabele X1 met de scores voor X2, X3,…Xj,… tot en met Xp, voor elk paar de correlatiecoëfficiënt. Deze wordt aangeduid met de letter r. Dat is voor X1 en X2 dus r1,2. Je gaat door tot je van X1 tot en met Xp bent gekomen.

Als je klaar bent, ziet het resultaat er ongeveer zo uit:

Tabel 2 correlatiematrix

Stap 3 - Het afscheiden van factoren

Nu begint de echte factoranalyse. Voordat je verder gaat zoek je de ladingen die in de tabel voor de factormatrix komen. Er bestaan veel verschillende procedures om aan die ladingen te komen. Die procedures leiden in alle gevallen tot factoren die de oorspronkelijke variabelen X1 t/m Xp beschrijven in termen van een lineaire vergelijking. Als je uitgaat van de afzonderlijke variabele Xj ziet dat er zo uit:

Xj = ajlF1 + ajlF2 + …. + ajpFp

Hier staat dus dat variabele Xj wordt vervangen door een lineaire combinatie van factoren. Je moet nu zo goed mogelijke schattingen voor de a-waarden vinden. De grootte van de a-waarden beschrijft hoe belangrijk de bijbehorende factor F1 of F2 of Fp voor die variabele is.

Als je dat hebt gedaan (of als de computer dat voor jou heeft gedaan), heb je een overzicht van de correlaties tussen de oorspronkelijke variabelen en de afgescheiden factoren. Die correlatie heet nu een lading. Je leest daarin dat de variabelen laden op de factoren. Deze ladingen vullen de kern van je factormatrix.

Stap 4 - Het berekenen van waarderingscijfers

De factoranalyse geeft uiteindelijk vier belangrijke waarderingscijfers voor je eerdergenoemde onderzoeksdoelen. Je leest hier de omschrijving en de werkwijze per waarderingscijfer.

In het volgende voorbeeld gaan we uit van 9 variabelen. Dan is de totaal te verklaren variantie dus de variantie van elke variabele (S=1) die bij elkaar opgeteld wordt. De som is dus 9.

  • De communaliteit geeft aan hoeveel variantie van een variabele door de factoren wordt verklaard. Kwadrateer voor elke variabele alle ladingen en tel deze op.

  • De eigenwaarde beschrijft hoeveel variantie van alle variabelen bij elkaar door een factor wordt verklaard. Kwadrateer alle ladingen in de kolom bij een bepaalde factor en tel deze bij elkaar op.

  • Het percentage door één factor verklaarde variantie vind je door eerst het delen van de eigenwaarde door de totaal te verklaren variantie. Dan vermenigvuldig je de uitkomst met 100 als percentagegetal.

  • Het percentage totaal verklaarde variantie geeft een indruk van hoe goed de gevonden factoren samen de uitgangsvariabelen samenvatten. Dit percentage vind je door alle in percentages uitgedrukte bijdragen van de verschillende factoren bij elkaar op te tellen.

 De bovenstaande tussenstappen bij deze paragraaf leiden tot de volgende factormatrix:

Interpretatie van de factormatrix

De vette, schuine cijfers geven input voor je interpretatie. In de matrix lees je als belangrijkste nieuws voor je rapportage:

  • Variabele X1 heeft de hoogste communaliteit.

  • Factor B heeft de belangrijkste eigenwaarde en daarin wordt relatief de meeste variantie verklaard.

  • De totaal verklaarde variantie is 51%.

Wat deze waarden inhoudelijk zeggen en welke uitleg je daaraan geeft, is afhankelijk van je vakgebied. Het Rijksmuseum Amsterdam kan tevreden zijn met 51% verklaarde variantie in de onderwerpkeuze van de top tien schilders uit de 17e eeuw. De Gemeente Amsterdam kan 51% verklaarde variantie voor de armoede wat mager vinden voor praktische beleidskeuzes.

Of deze waarden genoeg zijn, hangt van de onderzoeksvraag en van het doel van je onderzoek af.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?