Pearson correlatie

Met Pearsons correlatiecoëfficiënt beschrijf je hoe sterk een lineair verband is tussen twee onderwerpen. Er bestaan verschillende formules voor de correlatiecoëfficiënt. Deze hangen samen met het meetniveau van de scores op de variabelen. Dit artikel gaat over de correlatiecoëfficiënt volgens Pearson. Je kunt op zoek zijn naar een van de volgende vraagstukken voor samenhang:

Samenhang tussen twee populatiekenmerken

Voorbeeld: wat is het verband tussen opleiding van personen in de beroepsbevolking en het inkomen van diezelfde personen?

Samenhang van twee variabelen in een steekproef

Voorbeeld: wat is in een onderzoek naar snoeplust het verband tussen het aantal koekjes dat elke proefpersoon tijdens een schrijfopdracht opsnoept en lichaamslengte en -gewicht van elke proefpersoon?

Samenhang tussen beoordelaars

Voorbeeld: wat is het verband tussen de cijfers voor dezelfde leerlingen in de cijferboekjes van de leraar wiskunde en de leraar natuurkunde?

Samenhang tussen twee meetmomenten

Voorbeeld: wat is de samenhang tussen tentamenuitslagen voor eenzelfde groep studenten voor tentamens op maandagmorgen en tentamens op vrijdagmiddag?

Samenhang tussen twee helften registraties

Voorbeeld: wat is de interne samenhang in een enquête of tentamen van 80 vragen? Dus: is er samenhang tussen helft één en helft twee van twee keer 40 vragen?

In deze gevallen ben je benieuwd naar de samenhang uitgedrukt in r = … Misschien wil je daarna onderzoek doen naar eventuele oorzaak-gevolgrelaties.

Pearsons correlatiecoëfficiënt: wanneer gebruik je het?

Je kunt ook gebruikmaken van een productmoment-correlatiecoëfficiënt in de volgende gevallen:

Samenvattend gegeven van je onderzoek

Als je in je onderzoek een regressieanalyse hebt gedaan, rapporteer je met Pearsons correlatiecoëfficiënt over de samenhang tussen je onderzochte populatiekenmerken of steekproefvariabelen. Je hebt bijvoorbeeld onderzoek gedaan naar de variabele diensttijd van een medewerker als voorspeller van de variabele ziekteverzuim. Uit je regressieanalyse volgt dat hoe langer iemand werkt bij een bepaald bedrijf, hoe langer de medewerker na ziekmelding ook thuisblijft. Met een productmoment-correlatiecoëfficiënt rapporteer je ook nog eens over de sterkte van het verband tussen deze variabelen. Dat kan wel eens een heel ander beeld op het onderzoeksresultaat geven.

Voorbereiding voor verdere analyses

Je hebt bijvoorbeeld verschillende variabelen in verband gebracht met ziekteverzuim. Denk aan leeftijd, afstand woon-werk, jaren in dienst, salaris, opleiding in jaren. Welke variabele heeft nu welk verband met ziekteverzuim? Met een factoranalyse onderzoek je welke factoren de meeste invloed hebben. Dan heb je eerst van de verschillende variabelen een productmoment-correlatiecoëfficiënt nodig.

In alle gevallen noem je de onafhankelijke of experimentele variabele ‘X’ en de afhankelijke variabele ‘Y’. Voor correlatieonderzoek ben je vooral op zoek naar de paarsgewijze vergelijking van de X- en de Y-scores.

Het principe van de correlatiecoëfficiënt van Pearson

De scores voor de berekening van een productmoment correlatiecoëfficiënt zijn geregistreerd in reële getallen. Daarmee kunnen gewone berekeningen worden gemaakt. Het meetniveau is dus interval- of rationiveau. Voorbeelden van scores in reële getallen zijn: afstanden in kilometers of kosten en opbrengsten in euro’s.

Soms zijn scores van de afhankelijke en/of onafhankelijke variabelen geregistreerd in rangvolgorde of op naam. Dat zijn geen reële getallen. Voor correlatieonderzoek naar die samenhang werk je met Spearman’s rang-correlatiecoëfficiënt of Kendal’s Tau. Dat zijn dan bijvoorbeeld scores als: aantal doelpunten van afzonderlijke voetbalclubs of de voorkeur voor een vis- of vleesmenu van mannelijke en vrouwelijke restaurantbezoekers. Er is dan steeds één variabele met een nominale of ordinale score die vergeleken wordt met een andere score met ook een nominale of ordinale score. Of: één variabele met een nominale of ordinale score vergeleken met een variabele met een score in reële getallen. Bijvoorbeeld het aantal kilometers per dag dat stadskinderen naar school fietsen tegenover plattelandskinderen.

De correlatie volgens de productmoment-correlatiecoëfficiënt gaat om de samenhang tussen de scores van twee variabelen die allebei zijn geregistreerd in reële getallen. Als voor de ene variabele de scores worden genoteerd als X= en de scores voor de andere variabele worden geregistreerd als Y=, dan wil je weten wat elke waarde van Y doet voor die waarde van X die daarbij hoort. X- en Y-waarden vormen dus paren cijfers. Daarvan wil je de getalsmatige samenhang per paar weten. Zo wil je bijvoorbeeld van één spijkerbroek ook weten wat de lengte en de wijdte van die spijkerbroek is.

Over alle waarden van X en Y wil je weten of deze een samenhang hebben met elkaar of helemaal niet. Zo wil je bijvoorbeeld weten of de lengte en wijdte van spijkerbroeken een verband hebben. Het verband tussen lengte en kleur zal er misschien niet zijn.

Je bent benieuwd of X en Y samen systematisch afwijken van het gemiddelde, en of die afwijking even hard dezelfde kant op gaat, of dat X en Y net zo hard steeds van elkaar af bewegen. Als de ene waarde omhoog gaat, gaat de andere waarde dan in een bepaalde mate ook omhoog? Of gaan de X en Y waarden juist een andere kant op?

Je wilt bij een productmoment-correlatiecoëfficiënt niet alleen de onderlinge richting weten. Je wilt ook weten hoe sterk die samenhang is in het opgaan of neergaan van de waarden.

Hoe lees je de uitkomsten van een correlatieanalyse?

Het symbool voor Pearsons correlatiecoëfficiënt is een kleine letter r. Je schrijft na alle berekeningen dus een waarde voor r= ….

Het getal voor een correlatiecoëfficiënt is een decimale breuk. Dat is dan een waarde voor r= met een cijfer tussen min 1 en plus 1, met 0 als middelpunt. In een wiskundige notatie: – 1.00 < r < 1.00

Hoe verder r naar plus of min 1 gaat, hoe sterker het verband is tussen twee variabelen. Hoe dichter bij nul, hoe minder samenhang er is tussen de scores op de onderzochte variabelen. Zo kan r dus een waarde krijgen van min 1 via nul tot plus 1.

Uit de berekening en het plus- of minteken van de correlatiecoëfficiënt volgen de aard en de sterkte van de samenhang tussen variabelen:

Samenhang
Min 1
negatief of tegengesteld verband
een r van -.50 tot - .99
neutraal of geen verband
een r van nul tot plus of min .50
Plus 1
positief of gelijkstellend verband
een r van +.50 tot .99

Op basis van de resultaten van een onderzoek worden puntenwolken ofwel een scatterplot getekend. Door de punten van de wolk is een lijn getrokken. Lijnen van linksboven naar rechtsonder wijzen op een negatief verband tussen de x-waarden en de y -waarden. Een horizontale lijn wijst op neutraal of geen verband. Als de lijn van linksonder naar rechtsboven loopt, is er een positief verband. In een grafiek ziet dat er zo uit:

Een hoge, negatieve waarde

Pearson grafiek 1
Grafiek 1: negatief of tegengesteld verband.

Uit een onderzoek naar leesgedrag van treinreizigers blijkt een negatief verband tussen het aantal boeken dat iemand per jaar in de trein leest en het aantal kilometers reizen naar het werk per dag.

Een lage of neutrale waarde

Pearson grafiek 2
Grafiek 2: neutraal of geen verband.

Uit een onderzoek onder dagelijkse fietsers blijkt geen of een neutraal verband tussen de fietskilometers per dag en het aantal uren tv-kijken per dag.  

Een hoge positieve waarde

Pearson grafiek 3
Grafiek 3: positief verband.

Uit een onderzoek voor herenkleding en schoenmode blijkt een positief verband tussen de schoenmaat en de boordmaat van de deelnemers.

Hoe bereken je de correlatiecoëfficiënt volgens Pearson?

Voor de berekening van de productmoment correlatiecoëfficiënt lees je onderstaand in stappen een uitgewerkt voorbeeld van een correlatieanalyse. Het gaat in het voorbeeld om een architectenbureau met 16 nieuwe trainees. Er volgt een onderzoek naar het verband tussen X en Y:

  • X = de creativiteit van 16 jonge ontwerpers uitgedrukt in waarderingen van supervisors.

  • Y = flexibiliteit van 16 jonge ontwerpers, uitgedrukt in de tijd waarin beperkingen voor het ontwerp zijn opgelost.

Het bureau wil weten of X (creativiteit) en Y (praktisch ontwerpen) samenhangen of juist niets met elkaar te maken hebben.

Stappenplan voor een correlatiestudie

Stap 1: dataverzameling

Voor de 16 trainees zijn de volgende data verzameld:

Pearson tabel 1
Tabel 1
Puntenwolk
Puntenwolk

Stap 2: de formule

Er is gekozen voor een productmoment correlatiecoëfficiënt. De formule voor Pearsons correlatiecoëfficiënt is volledig uitgeschreven.

Formule 1

Stap 3: basisberekeningen voordat je verder kunt

In de volgende tabel zie je de basisbeperkingen die nodig zijn voor de volgende stappen.

Voor elke geregistreerde x-waarde en y-waarde wordt per afzonderlijke case berekend:

  • Het kwadraat van elke x-waarde

  • Het product van elke x- en elke y-waarde.

  • Het kwadraat van elke y-waarde.

Tabel basisberekeningen
Tabel basisberekeningen

Stap 4a: berekenen van SSxy

Dit is de som van de vermenigvuldiging van elke afzonderlijke waarde voor x met elke afzonderlijke waarde voor y, minus de vermenigvuldiging van: de som van alle waarden van x, maal de som van alle waarden van y, gedeeld door het aantal deelnemers aan het onderzoek n = 16.

Dat is de deelformule:

Formule 2

In cijfers: 1262,0 – (407*44,6)/ 16 = 127,49

Stap 4b: berekenen van SSx

Dat is de som van alle kwadraten van de afzonderlijke waarden voor x, minus de som van alle opgetelde waarden voor x in het kwadraat, gedeeld door het aantal deelnemers n=16.

Dat is de deelformule:

Formule 3

In cijfers: 11839 – (407)2/16 = 1485,94

Stap 5: berekenen van SSy

Dezelfde bewerking als stap 4, maar nu voor de y-waarden:

Dat is de deelformule:

Formule 4

In cijfers: 142.69 – (44.6)2/16 = 18,638

Stap 6: invullen van de deelresultaten in de formule voor r =

Dan is r= SSxy/ √ (SSx SSy) = 127,49/ √ (1485.94*18.638) = 0,77

Uit je onderzoek volgt, dat er een verband is van r = .77

Stap 7: rapporteren van je conclusies

r = .77 wijst erop dat er een positief verband bestaat tussen flexibiliteit en de creativiteit van de trainees. Het staat nog niet vast of er ook een causaal verband is. Het kan zijn dat ook andere factoren een rol spelen bij de flexibiliteit.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?