Correlatie tussen twee kwalitatieve variabelen bepalen

Vaak zoek je een statistisch verband of correlatie door reeksen cijfers met elkaar te vergelijken. Het meetniveau is dan rationeel. De data zijn reële getallen waarmee je gewoon kunt rekenen. Het kan ook zijn dat je het verband wilt berekenen tussen één kwalitatieve variabele waarbij het meetniveau nominaal is, en één waarbij sprake is van een numerieke, ordinale schaal. Dus: een categorie met een naam of label in relatie tot scores die geen cijfer maar een volgorde of rangorde aangeven. Bijvoorbeeld: wielrenners en plaats in het klassement (1e plaats, 2e plaats, 3e plaats).

Het kan ook dat de vraag is: wat is de samenhang van twee kwalitatieve variabelen (de onafhankelijke variabelen) met een afhankelijke variabele die geregistreerd is in rangscores? Als voorbeeld: sponsor 1 en sponsor 2 met een voorkeur voor het sponsoren van bepaalde wielrenners uit Nederland. Daarbij zijn dan de namen van de wielrenners geregistreerd als een letter: a, b, c, et cetera.

In een wiskundige vergelijking zeg je dan dat je zoekt naar de relatie van nominale variabele Xi én Xj met ordinale variable Yi én Yj. Dat is dus een dubbele denkknoop bij zowel de X- als de Y-variabelen. Bovendien zijn de variabelen ook nog op nominaal en ordinaal meetniveau en dus niet uitgedrukt in reële getallen. In dat geval werk je het best met de associatiemaat met de naam Kendall’s Tau (Kendall’s τ =). Deze is genoemd naar een publicatie van M.G. Kendall (1955).

Voorbeeld van een probleem bij Kendall's Tau

Wat moet je je voorstellen bij het gebruik van Kendall’s Tau? Hier volgt een concreet voorbeeld.

Twee hoogleraren moeten elk een voorkeur uitspreken voor een aantal studenten bij het uitvoeren van onderzoeken. Zij geven hun rangvolgorde van elke kandidaat bij onderzoeksprojecten. Daarbij wordt de eerste voorkeurskandidaat in de rangorde boven de kandidaat van de tweede keuze gezet, totdat voor alle studenten in de steekproef een voorkeur voor een aantal projecten gegeven is.

Ten aanzien van deze voorkeuren voor toe te kennen projecten, wil de leiding van de faculteit weten hoeveel overeenstemming de twee beoordelaars hebben over paren kandidaten. In welke mate zijn de beoordelaars het eens of oneens met elkaar? Met andere woorden: is er in de ranking door de twee beoordelaars samenhang, of is het geheel willekeurig?

Het probleem is dat noch de onafhankelijke variabele, de twee docenten, noch de afhankelijke variabele, de rangorde van de kandidaten, in cijfers is uit te drukken waarmee gerekend kan worden. Een correlatiecoëfficiënt volgens Pearson of volgens Spearman kan vanwege het meetniveau dus niet gebruikt worden.

Om te testen of er samenhang is, wordt één van de volgende hypothesen getoetst:

  • Er is géén samenhang tussen de kwalitatieve variabelen.

  • Er is een significante samenhang (positief of negatief).

Voor twee kwalitatieve onafhankelijke variabelen en één kwalitatieve afhankelijke variabele gebruik je een bijzondere vorm van rangcorrelatie: Kendall’s Tau (de Griekse letter Tau schrijf je als: τ).

Het principe van Kendall's Tau

Daar waar je bij Spearman’s rangcorrelatie geïnteresseerd bent in het verband tussen twee rangvolgordes, ben je nu geïnteresseerd in het verband tussen de categorieën die de volgorde bepalen.

Nu wil je weten of zowel beoordelaar 1 als beoordelaar 2 op de eerste plaats allebei dezelfde kandidaat zetten of dat ieder een geheel andere kandidaat noemt.

De derde mogelijkheid is dat de ene beoordelaar de ene kandidaat op positie 1 zet en de andere beoordelaar diezelfde kandidaat juist op positie 2 zet. En omgekeerd, dat de kandidaat die voor beoordelaar 1 op de tweede plaats komt bij beoordelaar 2 op de eerste plaats komt. Dan is de ene wijze voor het bepalen van de rangvolgorde precies het omgekeerde van de andere. Er is dan een omkering of inversie voor elk paar individuen. Er kan dan gezegd worden dat de beoordelaars een andere voorkeur hebben voor studenten bij het doen van de onderzoeken.

Dat betekent dat er bij volledige onenigheid tussen de twee beoordelaars, zoals je dat in termen van de kansberekening noemt “N over 2”-omkeringen bestaan. Dat is de waarde die je volgens de kansberekening mag verwachten: de zogenaamde P-waarde.

Stappenplan voor het berekenen van Kendall's Tau

Hieronder loop je stapsgewijs door een rekenvoorbeeld om aan de associatiemaat te komen.

Stap vooraf: de kansberekeningstechniek die nodig is

Het totale aantal manieren waarop 2 afzonderlijke combinaties zijn te selecteren uit N elementen in willekeurige volgorde, wordt berekend aan de hand van de volgende formule:

Kendall's Tau formule 1

Dat betekent: N faculteit gedeeld door het product van r faculteit maal het verschil van (N minus r) faculteit. In speciale tabellen staan waarden voor N en r uitgewerkt. Op een wetenschappelijke rekenmachine vind je onder de knop met het teken ! ook de uitkomst van een berekening die met pen en papier tijdrovend is.

De formule voor Kendall's Tau

Voor Kendall’s Tau betekent dit de volgende formule: τ = 1- (2*(aantal omkeringen) / aantal objectparen).

In woorden uitgeschreven: τ ={( aantal keer dat de volgorde van categorie 1 en 2 voor één paar overeenkomt) – (aantal keer dat er geen overeenstemming is tussen rangvolgorden) } gedeeld door totaal aantal paren.

Stap 1: de eerste registratie van volgordescores

Twee beoordelaars moeten in paren een rangvolgorde of voorkeur uitspreken voor kandidaten a, b, c, d, e, f en g. De ‘objecten’ zijn dan a, b, c, d, e, f, g. De posities zijn 1,2,3,4,5,6,7.

De voorkeuren van de twee beoordelaars zijn in 7 opeenvolgende paren geregistreerd:

Kendall's Tau tabel 1

Stap 2: markeren van verschillen

Nu markeert de leraar met eenzelfde kleur de objecten in de twee gelijklopende rangvolgordes. Hij loopt dus de posities 1 t/m 7 af en markeert de objecten zoals die in de posities door de ene en de ander beoordelaar zijn gezet.

Kendall's Tau tabel 2

Stap 3: tellen van inversies

Je kunt ook streepjes trekken tussen de letters. Dan zie je bijvoorbeeld een streep van c op positie 1 naar c op positie 2, en een streep van a op positie 1 naar a op positie 2. Dat is precies één omgekeerde voorkeur.

De strepen tussen de c en de a maken één kruis. Het aantal tweetallen strepen dat elkaar kruist is dan het aantal omkeringen (inversies) in de rangvolgorde. In ons voorbeeld zijn dat er 4.

Stap 4: invullen in de formule

Je gaat de formule nu invullen voor τ = 1- (2 * (aantal omkeringen/aantal objectparen).

Voor het gemak noteren we de noemer in de Tau-coëfficiënt als: S = (aantal overeenkomsten in volgorde) – (aantal onenigheid in volgorde) = (2 uit N) – 2 (aantal omkeringen) ofwel (N2) – 2 (aantal omkeringen).

De noemer van onze vergelijking is: S = (7 2 ) – (2) (4) = 21-8 = 13

De steekproefwaarde voor τ is dan: τ = 13/21 = 0,62

Interpretatie van de gevonden waarde voor Kendall's Tau

In ons voorbeeld hebben we een waarde voor deze rangcorrelatie gevonden van τ = 13/21 = 0,62. Dat wil zeggen dat uit deze steekproef volgt dat: 

  • Als er twee objecten worden getrokken uit een willekeurige steekproef, dan is de waarschijnlijkheid 0,62 groter dat deze twee objecten relatief dezelfde rangvolgorde krijgen van beide beoordelaars, dan de waarschijnlijkheid dat zij in een andere volgorde terugkomen.

Er is dus een goede kans dat de twee docenten een volgende keer een willekeurig paar objecten ongeveer op een overeenkomstige manier beoordeelt. Er is geen volledige overeenkomst tussen de voorkeuren van de twee docenten, maar het is ook niet zo dat de ene volledig tegengesteld aan de andere oordeelt.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?