Wanneer gebruik je de Phi coëfficiënt?

Soms hebben variabelen maar twee antwoordcategorieën, zoals ja/nee, zwart/wit, M/V. Zulke variabelen heten dichotoom. De correlatie tussen twee variabelen met maar twee antwoordcategorieën bereken je met de correlatiemaat met als symbool ϕ (Griekse letter phi; fie). Dit heet de Phi coëfficiënt.

De correlatie berekenen met maar twee maten is een uitdaging. Voor het verband tussen twee variabelen met continue waarden kun je gebruikmaken van Pearsons product-momentcorrelatie. Als je scores op variabelen in de vorm van rangnummers hebt, kun je gebruikmaken van Spearmans rangcorrelatie (rank correlation). De samenhang tussen getallen of rangnummers wordt dan berekend en uitgedrukt in een correlatiecoëfficiënt. Een correlatiecoëfficiënt heeft waarden van -1 via 0 tot +1. Deze waarden geven aan hoe sterk een getalsmatig verband kan zijn:

  • Er is een tegengesteld verband tussen twee variabelen bij een correlatiecoëfficiënt van (-1).

  • Er is geen verband bij een correlatiecoëfficiënt van (0).

  • Er is een positief verband bij een correlatiecoëfficiënt van (+1).

Als de variabelen die jij onderzoekt alleen nominale waarden hebben of maar twee waarden kennen, lukt het niet om met Pearsons product-momentcorrelatie of Spearmans rangcorrelatie een statistisch bruikbare correlatiecoëfficiënt te berekenen.

Het principe van de Phi coëfficiënt

De Phi coëfficiënt is erop gebaseerd dat je de twee variabelen die je wilt onderzoeken, die géén continue waarde of rangnummer hebben, eerst een dummycode geeft. Voor variabele X noteer je dan 0 of 1. Voor de variabele waarmee X een bepaalde samenhang kan hebben, de Y-variabele, waarvoor de scores evenmin een getal of rangnummer zijn, noteer je ook een dummycode. Dat moet dan ook 0 of 1 zijn.

Voor elk geval (case) in je onderzoek registreer je scores op de twee variabelen met elk twee antwoordmogelijkheden die jou interesseren. Dus: wat wordt er op vraag X geantwoord en wat wordt er in samenhang met vraag X geantwoord op vraag Y? Neem je bij de gebakken vis patat of brood? Mayonaise of ketchup? Dit zijn dichotome waarden omdat de ene waarde de andere uitsluit en er maar twee waarden zijn.

Hoe bereken je de Phi coëfficiënt?

Er zijn verschillende berekeningswijzen voor het berekenen van dichotome variabelen. Hier lees je over de twee algemeen gebruikte methoden om Phi te berekenen.

De twee formules betreffen:

Dat wil zeggen:

  • Zet elke score uit de observaties of tests voor elke case om in z-scores voor de waarden van variabele x en voor de waarden van variabele Y.

  • Vermenigvuldig elke score voor de z-score van elke case voor variabele X en variabele Y.

  • Tel alle producten van zx*zy bij elkaar op.

  • Deel deze som door N: het aantal cases in jouw onderzoek.

  • De uitkomst is dus de waarde voor Phi en de correlatie tussen X en Y.

Hier wordt eerst een kruistabel gemaakt van de twee waarden op X en Y, maar er worden géén z-scores berekend.

Voor beide formules zijn de nominale waarden als dichotome waarden omgezet in een verrekenbaar getal. Dat zijn dan nullen en enen. Dan kun je weer ‘gewoon’ rekenen. Nu je weer kunt rekenen, kun je ook de correlatie tussen X en Y bepalen. Let er daarbij wel op wát je hebt bedoeld met 0 of 1. Als je voor ‘popmuziek of klassieke muziek’ een 0 of 1 laat scoren, en bij ‘houdt van’ voor ‘ja’ een 1 laat scoren, lees dan bij de interpretatie zorgvuldig waar een sterk negatief of positief verband naar verwijst.

Voorbeeld van de berekening van Phi

Voor het rekenvoorbeeld voor beide formules gaan we uit van één dataset uit één onderzoek.

In een kleine gemeente is een hardrockfestival geweest. Het gemeentebestuur laat een arts nagaan of dit festival leidde tot gehoorklachten. Uit de kaartenbak van zijn praktijk vraagt hij patiënten om te reageren op de vraag:

  • ...of zij naar het concert zijn geweest.

  • ...of er sprake is van oorklachten.

In totaal reageren 12 patiënten op de vraag of ze bij het concert waren en of zij oorklachten hebben. In de volgende tabel staan de resultaten:

Phi coëfficiënt tabel 1

In deze tabel zijn de volgende onderzoeksstappen verwerkt:

  • De antwoorden op de vragen (ja of nee) zijn omgezet in dummyscores 0 en 1.

  • Voor elke variabele is het gemiddelde en de standaarddeviatie berekend.

  • Daarna is voor elke ruwe X- of Y-score de z-score berekend.

  • De z-score voor de eerste en voor de tweede variabele zijn met elkaar vermenigvuldigd.

  • In de laatste kolom zie je dan het product van de z-scores.

Volgens de formule worden deze producten van z-scores nu opgeteld en gedeeld door het aantal gevallen dat is onderzocht.

Ingevuld in de formule: ϕ = ∑zx * zy / N = 12.01 / 12 = 1.00.

Er is volgens deze formule een correlatie van 1. Er is dus een duidelijke samenhang tussen wel/geen bezoek aan het hardrockconcert en wel/geen oorklachten.

Een eenvoudigere manier om Phi te berekenen

Wat nu als je niet eerst elke z-waarde en dan het product van z-waardes kan of wilt berekenen? Een eenvoudigere methode is eerst de antwoorden op de eerste en de tweede vraag in combinatie verwerken in een 2X2-kruistabel. De kruistabel is ingedeeld in vier velden: A, B, C en D. Dan worden de kolom- en rijtotalen berekend. Dat levert de volgende tabel op:

Phi coëfficiënt tabel 2

Zo is het niet nodig om eerst alle z-waardes door te rekenen. Zeker als je maar een beperkt aantal cases hebt en snel resultaat zoekt, kun je deze aanpak vrij goed gebruiken. Nu vul je de gevonden waarden in de tweede formule in:

ϕ = (BC-AD) / √(A+B) (C+D) (A+C) (B+D)

Dat wordt hier dan:

ϕ = (BC-AD)/√(A+B) (C+D) (A+C) (B+D) = [(7*5)  – (0*0)]/√ (7*5*5*7) = 35 – 0/√1.225 = 35/35 = 1.

Ook uit deze formule volgt een correlatiecoëfficiënt van ϕ =1. Er is dus een positief verband tussen het bezoek aan het hardrockfestival en oorklachten.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?