R² coëfficiënt als indicatie van betrouwbaarheid

Het vraagstuk in dit artikel is: hoe zeker kun je zijn van je schatting of analyse uit je gevonden onderzoeksresultaten? Met de R² coëfficiënt geef je een meeteenheid voor de mate waarin je statistisch model echt past. Dus: hoe sterk is het verband tussen werkelijk te vinden waarden en de schattingen volgens jouw model? Daarmee is de R² coëfficiënt te gebruiken als een indicatie voor betrouwbaarheid: what you see is what you get.

In veel statistisch onderzoek ben je benieuwd naar de relatie tussen een onafhankelijke variabele en een of meer afhankelijke variabelen. Je zoekt, in wiskundige termen beschreven, naar de relatie van X tot Y. Dus: f (x): y

Uit je onderzoek volgt bij elke waarde voor X_i een waarde voor Y_i. Vooraf heb je een kansberekening gemaakt van welke waarde Y_i theoretisch zou kunnen krijgen. Let op: de geschatte waarde voor Y_i wordt altijd geschreven met een ‘dakje’: ŷ_i.

Zo zul je verwachten dat bij het opgooien van een gewone munt in 50% van de gevallen bij het tossen een ‘kop’ boven komt. In 50% van de gevallen valt er een ‘munt’. Als het een puur zuivere munt is, dan verwacht je met andere woorden dat y_i = ŷ_i. Hoe zuiver is nu het verband tussen geschatte kop en munt en daadwerkelijke kop en munt? Hoe betrouwbaar is de verwachting dat de munt in de komende reeks worpen wéér 50% kop en 50% munt geeft?

Het principe van de R² coëfficiënt

Uit een onderzoek is een reeks waarden voor y_igevonden. Nu zoek je het verband tussen deze waarden voor y_ien een mogelijke schatter voor deze waarde, ŷ_i. Er is dus een verband tussen een waarde X_idie via een statistische schatting een aanwijzing geeft voor een mogelijke waarde y_i..

Voorbeeld: een studiedecaan vindt het handig om aan het begin van de studie te weten wie zwakke studenten kunnen zijn die extra aandacht vragen. Dan wil hij vooraf een indicatie hebben van wie zwak zijn en hoe zwak dan ‘zwak’ kan zijn.

Uit een regressieanalyse volgt een statistisch model waarmee voor elke waarde van X_i een schatting gegeven kan worden voor Y_i. Denk bijvoorbeeld aan een toelatingstoets die de schatting geeft voor te halen studiepunten in de eerste fase van het onderwijs. Bijvoorbeeld de eindexamencijfers als indicatie voor de studiepunten in de bachelorfase. Daarvoor is een statistisch model voor een schatting gemaakt. Maar hoe stabiel is deze schatting?

Het principe van een regressieanalyse is het passen van een zo recht mogelijke lijn door een puntenwolk of scatterplot. Voor elke waarde van X is er een waarde voor Y en het duo X_i en Y_imaken samen de coördinaten op een x- en y-as voor elk punt. Alle geobserveerde waarden voor X en Y maken de puntenwolk. Ter illustratie zie je hieronder een puntenwolk, waarbij de cijfers voor een wiskunde-examen zijn gekoppeld aan studiepunten in de eerste studieperiode.

Uit de regressieanalyse is een regressievergelijking gekomen. Die geeft zo goed mogelijk een wiskundige beschrijving van de trendlijn door de puntenwolk heen. Dat is de stippellijn tussen de punten door als een benaderde lineaire vergelijking. In de wiskunde schrijf je een lineaire vergelijking als f(x) = ax+b = y.

Maar hoe ‘goed’ past die lijn werkelijk? Hoe ver liggen de punten in het echt van de denkbeeldige lijn af? Technisch wordt dit vraagstuk de goodness of fit genoemd. Voor een aanwijzing hoe goed die ‘goodness of fit’ is, ben je benieuwd naar de samenhang tussen daadwerkelijk gevonden waarden y_i en de waarden ŷ_i die uit de regressievergelijking volgen. Een manier om achter een getalsmatige samenhang te komen, is het zoeken van de correlatie tussen twee variabelen. Hier zoeken we dus de correlatie tussen daadwerkelijk gevonden waarden y_i en de waarden ŷ_i uit de regressievergelijking. Als het model geheel zuiver is, als de punten precies op de lijn zouden liggen, dan zou er dus een volledige samenhang zijn: y_i = ŷ_i.

Stappenplan voor de berekening van R²

Voor het volgende voorbeeld blijven we bij het voorbeeld van de vraag van de studentendecaan. Er is een wiskundetoets die vóór het eerste studiejaar wordt afgenomen en de decaan verzamelt de studiepunten die in de loop van de eerste studiefase worden gehaald.

Stap 1: de regressievergelijking

Voor deze stappen is het nodig dat je werkt met reële getallen waarmee gewoon kan worden gerekend. De onderzoeker verzamelt gegevens over resultaten van een wiskundetoets en gegevens over behaalde studiepunten. Daarmee doorloopt hij de hele regressieanalyse. Daaruit volgt een regressievergelijking: een functievoorschrift voor een lineaire vergelijking die zo goed mogelijk door de punten heen loopt. Hij heeft dan een bestand met waarden voor X_ien voor Y_i. Dan verzamelt de onderzoeker een even groot aantal gegevens over geschatte studiepunten: een bestand met waarden voor ŷ_i.

Stap 2: berekenen van SSE (som van de kwadraten van de fout)

Voor de volgende stap heb je eerst de som van de kwadraten van de fout (sum of squares of error) nodig. Dit wordt afgekort tot SSE. Deze bereken je aan de hand van de volgende formule:

SSE= SS_y –{(SS_xy )²/ SSx}

Dat is: De som van de kwadraten van de y waarden minus de verhouding tussen:

Het kwadraat van de som van het product van x en y waarden, en
De som van de kwadraten van x.

Let op! Om positieve en negatieve waarden van deze verschillen niet tegen elkaar weg te laten vallen, gebruik je een som van de kwadraten SSE of squared sum of errors voor deze fout. Elk negatief of positief getal telt dan als absoluut getal mee.

Stap 3: het verschil van Yᵢ met ŷᵢ

Voor de derde stap wil je weten hoe ver steeds de schatting afwijkt van de gevonden waarde voor Y. Dus: het verschil van Y_i met ŷ_iofwel, hoe ver een punt in de puntenwolk daadwerkelijk afwijkt.

Je vergelijkt nu de som van de kwadraten van de fout (error) van de twee modellen of reeksen Y_i met ŷ_i met elkaar. Dat geeft de verhouding tussen SSE en het kwadraat van de opgetelde afwijkingen tussen y_i = ŷ_i.Dus: SSE en ∑ⁿ_i=1(y_i – ŷ_i)²_.Dat is de som van de kwadraten van het verschil tussen waarden voor y_i = ŷ_i.

Als er dus een perfect verband bestaat tussen geschatte waarde ŷ_i en werkelijke waarde y_i, als er dus een perfecte rechte lijn door de puntenwolk loopt of als alle punten precies op de lijn vallen, is er een volledig lineair verband.

Deze vergelijking komt dan terug als een verhoudingsgetal in de berekening van r². De waarde van r²geeft een aanwijzing van hoeveel variabiliteit of wisselvalligheid in y wordt veroorzaakt door lineaire regressie naar de waarden voor x. Dus: hoe sterk de lijn door de puntenwolk ‘rammelt’. Noot: het getal r²verwijst naar een product-momentcorrelatie tussen Y_i met ŷ_i. Maar dan zijn we nog niet klaar.

Stap 4: bepalen van de passendheid van de regressielijn

In deze stap wordt de bedoelde betrouwbaarheidsmaat berekend. De R²coëfficiënt wordt ook wel de coëfficiënt van bepaling genoemd (coëfficiënt of determination). Immers, deze coëfficiënt bepaalt welke samenhang er is.

-Als alle gevonden waarden precies op de regressielijn vallen, zal R² ongeveer = 1 zijn. Dan zijn namelijk de afwijkingen tussen de x en de reëel te verwachten y-waarden bijna niets.

-Als er nauwelijks of geen verband is tussen de wiskundetoets en de studiepunten, nadert R2 een waarde = 0. De verhouding tussen SSE en de som van de kwadraten van de verschillen tussen y_i – ŷ_izijn dan ongeveer 1/1. Dan wordt R² = 1 -1 = 0.

Voor de berekening van de R²coëfficiënt gebruik je de volgende formule:

R² = 1 – SSE/ ∑ⁿ_i=1(y_i – ŷ_i)²_.

R heeft – vanwege het kwadraat – altijd een positieve waarde. Dat kan, ook al zouden (x_iy_i) en (x_i ŷ_i)omgekeerd evenredige waarden zijn. Denk daarbij aan leeftijd en popmuziek: hoe ouder iemand is (x = jaren), hoe minder waardering (y = waarderingsmaat) deze kan hebben voor de actuele hits. R² blijft dan nog positief, hoe sterk x en y ook tegenover elkaar staan.

Stap 5: interpretatie van de gevonden waarde voor R²

Als alle gevonden waarden precies op de regressielijn vallen, zal R² ongeveer = 1 zijn. Immers, dan zijn de afwijkingen tussen de x en de reëel te verwachten y-waarden bijna niets.

Als er nauwelijks of geen verband is tussen de wiskundetoets en de studiepunten, nadert R² een waarde = 0. Immers, de verhouding tussen SSE en de som van de kwadraten van de verschillen tussen y_i – ŷ_izijn dan ongeveer 1/1. Dan wordt R² = 1 -1 = 0.

Als R²ongeveer 0,5 is, is er al een redelijk verband. Dan heeft de decaan een redelijk handvat om vooraf te screenen welke studenten meer aandacht nodig hebben, omdat de geschatte Y redelijk waarschijnlijk in de buurt van de daadwerkelijke Y zal komen.

Let op! Het gaat hier om een lineair verband tussen x- en y-waarden en tussen y_i - ŷ_i. Je kunt niet zeggen dat er beslist géén verband is als R² = 0, want het kan even goed zijn dat er wel een ander verband is maar dat dit niet lineair is.

Aangepaste R² voor een grotere populatie

De waarde voor R² is gebaseerd op een steekproef. Dat kan wat optimistisch zijn. Het model dat is gevonden past meer bij de steekproef dan bij de hele populatie waar die steekproef uit is gehaald. Om tot een statistisch meer aangepaste maat te komen, wordt een aangepaste R² gebruikt. De formule voor R² adjusted is:

Waarbij N = het aantal observaties in je steekproef. De waarde p is het aantal onafhankelijke variabelen in de bewerking. Dat is er hier maar één: de variabele X_i = punten voor de wiskundetoets. Als er meer variabelen zijn verwerkt in de regressieanalyse, wordt p dus ook groter. Dat kan als bijvoorbeeld niet alleen een toets voor wiskundekennis maar ook een toets voor beheersing van Latijn wordt gevraagd.

Met een R² adjusted heb je een beter zicht op de mate waarin het model ook voor de hele populatie opgaat. Dan kan de decaan beter alle mogelijke studenten (de hele theoretische populatie ‘studenten’) in de toekomst benaderen dan alleen de groep waarmee hij nu te maken had.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota

Motto: Beter weten door zuiver meten

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.

R² coëfficiënt als indicatie van betrouwbaarheid – Bereken in 5 stappen