R² coëfficiënt als indicatie van betrouwbaarheid
Het vraagstuk in dit artikel is: hoe zeker kun je zijn van je schatting of analyse uit je gevonden onderzoeksresultaten? Met de R2 coëfficiënt geef je een meeteenheid voor de mate waarin je statistisch model echt past. Dus: hoe sterk is het verband tussen werkelijk te vinden waarden en de schattingen volgens jouw model? Daarmee is de R2 coëfficiënt te gebruiken als een indicatie voor betrouwbaarheid: what you see is what you get.
In veel statistisch onderzoek ben je benieuwd naar de relatie tussen een onafhankelijke variabele en een of meer afhankelijke variabelen. Je zoekt, in wiskundige termen beschreven, naar de relatie van X tot Y. Dus: f (x): y
Uit je onderzoek volgt bij elke waarde voor Xi een waarde voor Yi. Vooraf heb je een kansberekening gemaakt van welke waarde Yi theoretisch zou kunnen krijgen. Let op: de geschatte waarde voor Yi wordt altijd geschreven met een ‘dakje’: ŷi.
Zo zul je verwachten dat bij het opgooien van een gewone munt in 50% van de gevallen bij het tossen een ‘kop’ boven komt. In 50% van de gevallen valt er een ‘munt’. Als het een puur zuivere munt is, dan verwacht je met andere woorden dat yi = ŷi. Hoe zuiver is nu het verband tussen geschatte kop en munt en daadwerkelijke kop en munt? Hoe betrouwbaar is de verwachting dat de munt in de komende reeks worpen wéér 50% kop en 50% munt geeft?
Het principe van de R² coëfficiënt
Uit een onderzoek is een reeks waarden voor yi gevonden. Nu zoek je het verband tussen deze waarden voor yi en een mogelijke schatter voor deze waarde, ŷi. Er is dus een verband tussen een waarde Xi die via een statistische schatting een aanwijzing geeft voor een mogelijke waarde yi..
Voorbeeld: een studiedecaan vindt het handig om aan het begin van de studie te weten wie zwakke studenten kunnen zijn die extra aandacht vragen. Dan wil hij vooraf een indicatie hebben van wie zwak zijn en hoe zwak dan ‘zwak’ kan zijn.
Uit een regressieanalyse volgt een statistisch model waarmee voor elke waarde van Xi een schatting gegeven kan worden voor Yi. Denk bijvoorbeeld aan een toelatingstoets die de schatting geeft voor te halen studiepunten in de eerste fase van het onderwijs. Bijvoorbeeld de eindexamencijfers als indicatie voor de studiepunten in de bachelorfase. Daarvoor is een statistisch model voor een schatting gemaakt. Maar hoe stabiel is deze schatting?
Het principe van een regressieanalyse is het passen van een zo recht mogelijke lijn door een puntenwolk of scatterplot. Voor elke waarde van X is er een waarde voor Y en het duo Xi en Yi maken samen de coördinaten op een x- en y-as voor elk punt. Alle geobserveerde waarden voor X en Y maken de puntenwolk. Ter illustratie zie je hieronder een puntenwolk, waarbij de cijfers voor een wiskunde-examen zijn gekoppeld aan studiepunten in de eerste studieperiode.
Uit de regressieanalyse is een regressievergelijking gekomen. Die geeft zo goed mogelijk een wiskundige beschrijving van de trendlijn door de puntenwolk heen. Dat is de stippellijn tussen de punten door als een benaderde lineaire vergelijking. In de wiskunde schrijf je een lineaire vergelijking als f(x) = ax+b = y.
Maar hoe ‘goed’ past die lijn werkelijk? Hoe ver liggen de punten in het echt van de denkbeeldige lijn af? Technisch wordt dit vraagstuk de goodness of fit genoemd. Voor een aanwijzing hoe goed die ‘goodness of fit’ is, ben je benieuwd naar de samenhang tussen daadwerkelijk gevonden waarden yi en de waarden ŷi die uit de regressievergelijking volgen. Een manier om achter een getalsmatige samenhang te komen, is het zoeken van de correlatie tussen twee variabelen. Hier zoeken we dus de correlatie tussen daadwerkelijk gevonden waarden yi en de waarden ŷi uit de regressievergelijking. Als het model geheel zuiver is, als de punten precies op de lijn zouden liggen, dan zou er dus een volledige samenhang zijn: yi = ŷi.
Stappenplan voor de berekening van R²
Voor het volgende voorbeeld blijven we bij het voorbeeld van de vraag van de studentendecaan. Er is een wiskundetoets die vóór het eerste studiejaar wordt afgenomen en de decaan verzamelt de studiepunten die in de loop van de eerste studiefase worden gehaald.
Stap 1: de regressievergelijking
Voor deze stappen is het nodig dat je werkt met reële getallen waarmee gewoon kan worden gerekend. De onderzoeker verzamelt gegevens over resultaten van een wiskundetoets en gegevens over behaalde studiepunten. Daarmee doorloopt hij de hele regressieanalyse. Daaruit volgt een regressievergelijking: een functievoorschrift voor een lineaire vergelijking die zo goed mogelijk door de punten heen loopt. Hij heeft dan een bestand met waarden voor Xi en voor Yi. Dan verzamelt de onderzoeker een even groot aantal gegevens over geschatte studiepunten: een bestand met waarden voor ŷi.
Stap 2: berekenen van SSE (som van de kwadraten van de fout)
Voor de volgende stap heb je eerst de som van de kwadraten van de fout (sum of squares of error) nodig. Dit wordt afgekort tot SSE. Deze bereken je aan de hand van de volgende formule:
SSE= SSy –{(SSxy )2/ SSx}
Dat is: De som van de kwadraten van de y waarden minus de verhouding tussen:
-
Het kwadraat van de som van het product van x en y waarden, en
-
De som van de kwadraten van x.
Stap 3: het verschil van Yᵢ met ŷᵢ
Voor de derde stap wil je weten hoe ver steeds de schatting afwijkt van de gevonden waarde voor Y. Dus: het verschil van Yi met ŷi ofwel, hoe ver een punt in de puntenwolk daadwerkelijk afwijkt.
Je vergelijkt nu de som van de kwadraten van de fout (error) van de twee modellen of reeksen Yi met ŷi met elkaar. Dat geeft de verhouding tussen SSE en het kwadraat van de opgetelde afwijkingen tussen yi = ŷi. Dus: SSE en ∑ni=1(yi – ŷi )2. Dat is de som van de kwadraten van het verschil tussen waarden voor yi = ŷi.
Als er dus een perfect verband bestaat tussen geschatte waarde ŷi en werkelijke waarde yi, als er dus een perfecte rechte lijn door de puntenwolk loopt of als alle punten precies op de lijn vallen, is er een volledig lineair verband.
Deze vergelijking komt dan terug als een verhoudingsgetal in de berekening van r2. De waarde van r2 geeft een aanwijzing van hoeveel variabiliteit of wisselvalligheid in y wordt veroorzaakt door lineaire regressie naar de waarden voor x. Dus: hoe sterk de lijn door de puntenwolk ‘rammelt’. Noot: het getal r2 verwijst naar een product-momentcorrelatie tussen Yi met ŷi. Maar dan zijn we nog niet klaar.
Stap 4: bepalen van de passendheid van de regressielijn
In deze stap wordt de bedoelde betrouwbaarheidsmaat berekend. De R2 coëfficiënt wordt ook wel de coëfficiënt van bepaling genoemd (coëfficiënt of determination). Immers, deze coëfficiënt bepaalt welke samenhang er is.
-Als alle gevonden waarden precies op de regressielijn vallen, zal R2 ongeveer = 1 zijn. Dan zijn namelijk de afwijkingen tussen de x en de reëel te verwachten y-waarden bijna niets.
-Als er nauwelijks of geen verband is tussen de wiskundetoets en de studiepunten, nadert R2 een waarde = 0. De verhouding tussen SSE en de som van de kwadraten van de verschillen tussen yi – ŷi zijn dan ongeveer 1/1. Dan wordt R2 = 1 -1 = 0.
Voor de berekening van de R2 coëfficiënt gebruik je de volgende formule:
R2 = 1 – SSE/ ∑ni=1(yi – ŷi )2.
R heeft – vanwege het kwadraat – altijd een positieve waarde. Dat kan, ook al zouden (xi yi) en (xi ŷi) omgekeerd evenredige waarden zijn. Denk daarbij aan leeftijd en popmuziek: hoe ouder iemand is (x = jaren), hoe minder waardering (y = waarderingsmaat) deze kan hebben voor de actuele hits. R2 blijft dan nog positief, hoe sterk x en y ook tegenover elkaar staan.
Stap 5: interpretatie van de gevonden waarde voor R²
Als alle gevonden waarden precies op de regressielijn vallen, zal R2 ongeveer = 1 zijn. Immers, dan zijn de afwijkingen tussen de x en de reëel te verwachten y-waarden bijna niets.
Als er nauwelijks of geen verband is tussen de wiskundetoets en de studiepunten, nadert R2 een waarde = 0. Immers, de verhouding tussen SSE en de som van de kwadraten van de verschillen tussen yi – ŷi zijn dan ongeveer 1/1. Dan wordt R2 = 1 -1 = 0.
Als R2 ongeveer 0,5 is, is er al een redelijk verband. Dan heeft de decaan een redelijk handvat om vooraf te screenen welke studenten meer aandacht nodig hebben, omdat de geschatte Y redelijk waarschijnlijk in de buurt van de daadwerkelijke Y zal komen.
Aangepaste R² voor een grotere populatie
De waarde voor R2 is gebaseerd op een steekproef. Dat kan wat optimistisch zijn. Het model dat is gevonden past meer bij de steekproef dan bij de hele populatie waar die steekproef uit is gehaald. Om tot een statistisch meer aangepaste maat te komen, wordt een aangepaste R2 gebruikt. De formule voor R2 adjusted is:
Waarbij N = het aantal observaties in je steekproef. De waarde p is het aantal onafhankelijke variabelen in de bewerking. Dat is er hier maar één: de variabele Xi = punten voor de wiskundetoets. Als er meer variabelen zijn verwerkt in de regressieanalyse, wordt p dus ook groter. Dat kan als bijvoorbeeld niet alleen een toets voor wiskundekennis maar ook een toets voor beheersing van Latijn wordt gevraagd.
Met een R2 adjusted heb je een beter zicht op de mate waarin het model ook voor de hele populatie opgaat. Dan kan de decaan beter alle mogelijke studenten (de hele theoretische populatie ‘studenten’) in de toekomst benaderen dan alleen de groep waarmee hij nu te maken had.
Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in
Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.
De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.
Gg