Wat is een determinatiecoëfficiënt?

Een determinatiecoëfficiënt is een statistische maatstaf die gebruikt wordt bij regressieanalyse om het percentage variantie in de afhankelijke variabele te verklaren door de onafhankelijke variabelen. Dit wordt ook wel aangeduid als (R-kwadraat). De R²-waarde geeft aan hoe goed de regressielijn of het regressiemodel past bij de werkelijke gegevens. Het is een maatstaf voor de pasvorm van een statistisch model.

Welke waarden kan een determinatiecoëfficiënt hebben?

De determinatiecoëfficiënt varieert tussen 0 en 1:

  • Een waarde van 0 geeft aan dat de onafhankelijke variabelen geen invloed hebben op de afhankelijke variabele. Dit betekent dat het regressiemodel geen verklarende kracht heeft.

  • Een waarde van 1 geeft aan dat de onafhankelijke variabelen de afhankelijke variabele volledig verklaren. Dit betekent dat het regressiemodel perfect past bij de gegevens.

Een R²-waarde tussen 0 en 1 kan geïnterpreteerd worden als het percentage van de variantie in de afhankelijke variabele dat verklaard wordt door de onafhankelijke variabelen. Bijvoorbeeld, een R²-waarde van 0,75 betekent dat 75% van de variantie in de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen in het regressiemodel.

Wat is de beste pasvorm in een regressiemodel?

In een regressiemodel wordt de “beste pasvorm” gebruikt om de mate van nauwkeurigheid of kwaliteit van de voorspellingen van het model te beschrijven. Het verwijst naar het vermogen van het model om de relatie tussen de onafhankelijke variabelen (input) en de afhankelijke variabele (output) zo goed mogelijk te modelleren.

Er zijn verschillende statistische maatstaven die gebruikt kunnen worden om de pasvorm van een regressiemodel te beoordelen. Enkele veelgebruikte maatstaven zijn:

  • R2 (R-kwadraat)
    Dit is een maatstaf die de proportie van de variantie in de afhankelijke variabele verklaard door het model weergeeft. Het varieert tussen 0 en 1, waarbij 1 aangeeft dat het model perfect de variabiliteit van de afhankelijke variabele verklaart.

  • Gecorrigeerde R2
    Deze maatstaf is vergelijkbaar met R2, maar houdt rekening met het aantal voorspellende variabelen en de steekproefgrootte. Het wordt gebruikt om over-aanpassing aan het model te voorkomen, vooral bij modellen met veel voorspellende variabelen. Je wilt voorkomen dat er uit te veel variabelen altijd wel één schijnbaar verband lijkt te bestaan.

  • Mean Squared Error (MSE)
    Dit is een maatstaf voor de gemiddelde kwadratische afwijking tussen de voorspelde waarden van het model en de werkelijke waarden. Een lagere MSE geeft een betere pasvorm aan.

  • Mean Absolute Error (MAE)
    Dit is een maatstaf voor de gemiddelde absolute afwijking tussen de voorspelde waarden en de werkelijke waarden. Net als bij MSE geeft een lagere MAE een betere pasvorm aan.

Hoe bereken je de determinatiecoëfficiënt R2?

Stel dat je een dataset hebt met gegevens over de leeftijd van een persoon (onafhankelijke variabele) en hun bijbehorende scores op een taalvaardigheidstest (afhankelijke variabele). Je wilt onderzoeken in hoeverre de leeftijd de taalvaardigheid van een persoon kan verklaren.

In de volgende tabel staan je onderzoeksgegevens:

Tabel met de gegevens 'leeftijd' en 'taalscore' waarmee de determinatiecoëfficiënt kan worden berekend.

Om de determinatiecoëfficiënt te berekenen, voeren we een lineaire regressieanalyse uit en kijken we naar de waarde van .

Aannames bij een lineaire regressie

Om een regressieanalyse valide uit te voeren, moeten de gegevens voldoen aan bepaalde eigenschappen en aannames. Hier zijn enkele belangrijke eigenschappen die van toepassing zijn op een lineaire regressieanalyse:

  • Lineair verband
    Er moet een lineair verband zijn tussen de onafhankelijke variabele(n) en de afhankelijke variabele. Dit betekent dat de relatie tussen deze variabelen kan worden benaderd door een lineaire functie.

  • Homoscedasticiteit
    Dit betekent dat de variantie van de afhankelijke variabele constant blijft over het bereik van de voorspellende variabelen. Met andere woorden: de spreiding van de afhankelijke variabele moet gelijkmatig zijn in alle waarden van de onafhankelijke variabele(n).

  • Onafhankelijkheid van fouten
    De fouttermen of residuen van het regressiemodel moeten onafhankelijk zijn van elkaar. Dit betekent dat er geen systematische patronen of correlaties mogen zijn tussen de fouten.

  • Normale verdeling van fouten
    De fouttermen moeten een normale verdeling volgen. Dit betekent dat de meeste fouten dicht bij nul moeten liggen en de verdeling van de fouten symmetrisch moet zijn rond nul.

  • Afwezigheid van multicollineariteit
    Als er meerdere onafhankelijke variabelen zijn in het regressiemodel, moeten deze variabelen niet sterk gecorreleerd zijn. Hoge multicollineariteit kan problemen veroorzaken bij het interpreteren van de individuele effecten van de variabelen en kan de betrouwbaarheid van de geschatte coëfficiënten beïnvloeden.

Niet al deze eigenschappen zijn strikt vereist voor elke situatie. Soms kunnen er enkele afwijkingen zijn van de aannames. Daarnaast kunnen bepaalde correcties of alternatieve methoden worden toegepast om de regressieanalyse toch valide te maken.

Het is raadzaam om de specifieke vereisten en aannames van de gekozen regressiemethode te raadplegen en te beoordelen of je gegevens aan die criteria voldoen, voordat je een regressieanalyse uitvoert.

Vergelijking en doel van een lineaire regressie

De lineaire regressie geeft ons een vergelijking van de vorm y = a + bx.

Dit wordt ook geschreven als: y = b0 + b1 * x waarbij:

  • y is de afhankelijke variabele (de variabele die we proberen te voorspellen);

  • x is de onafhankelijke variabele (de variabele die we gebruiken om de voorspelling te doen);

  • b0 is de intercept, het punt waar de regressielijn de y-as snijdt;

  • b1 is de helling, de verandering in y ten opzichte van een eenheid verandering in x.

Het doel van de lineaire regressieanalyse is om de waarden van de coëfficiënten b0 en b1 te schatten op basis van de beschikbare gegevens, zodat we een goede voorspelling kunnen doen van de afhankelijke variabele y voor nieuwe waarden van x. Daarbij is y de taalscore, x de leeftijd en a en b de parameters van de regressielijn.

De berekening van de determinatiecoëfficiënt R² omvat het vergelijken van de totale variantie en de resterende variantie in de afhankelijke variabele. Je berekent dit in de volgende stappen:

Stap 1 - Bereken de gemiddelde waarden

Gemiddelde van leeftijd (x̄) = (25 + 30 + 35 + 40 + 45) / 5 = 35

Gemiddelde van taalscore (ȳ) = (70 + 75 + 82 + 85 + 90) / 5 = 80.4

Stap 2 - Bereken de som van vierkantsafwijkingen (SS)

SSTotal = Σ(y – ȳ)²

= (70 – 80.4)² + (75 – 80.4)² + (82 – 80.4)² + (85 – 80.4)² + (90 – 80.4)²

= 292.16

Stap 3 - Voer de lineaire regressieanalyse uit en bepaal parameters a en b

De berekende vergelijking is y = 57.4 + 1.28x (a ≈ 57.4, b ≈ 1.28)

Stap 4 - Bereken de som van kwadraten van de residuen (SSR)

SSR = Σ(y – ŷ)², waarbij ŷ de voorspelde waarde is op basis van de regressielijn

= (70 – (57.4 + 1.28 * 25))² + (75 – (57.4 + 1.28 * 30))² + …

= 58.34

Stap 5 - Bereken de verklaarde som van de kwadraten (SSExplained)

SSExplained = SSTotal – SSR

= 292.16 – 58.34

= 233.82

Stap 6 - Bereken de determinatiecoëfficiënt (R²)

R² = SSExplained / SSTotal

= 233.82 / 292.16

≈ 0.8011

Interpretatie en significantie van de gevonden waarde

De berekende determinatiecoëfficiënt R² is ongeveer 0,8011. Dit betekent dat ongeveer 80,11% van de variantie in de taalscores verklaard kan worden door de leeftijd in dit regressiemodel.

Om te bepalen of de determinatiecoëfficiënt significant is, kunnen we een hypothesetest uitvoeren. Hiervoor moeten we de p-waarde beoordelen die gekoppeld is aan de R²-waarde.

Is de p-waarde kleiner dan een vooraf bepaald significantieniveau (bijvoorbeeld 0,05)? Dat betekent dat:

  • De determinatiecoëfficiënt significant is;

  • En er een significante relatie is tussen de onafhankelijke en afhankelijke variabelen.

Is de p-waarde groter dan het significantieniveau? Dat betekent dat:

  • De determinatiecoëfficiënt als niet significant wordt beschouwd;

  • En het regressiemodel niet significant verklaart.

Statistische hypothesetest: F-toets

Om de significantie van de berekende determinatiecoëfficiënt R² te bepalen, is het gebruikelijk om een statistische hypothesetest uit te voeren. De meest voorkomende test hiervoor is de F-toets (ook wel de F-test genoemd) bij lineaire regressie. De F-toets vergelijkt de verklaarde variantie (verklaard door het regressiemodel) met de niet-verklaarde variantie (niet verklaard door het model).

Het testen van de hypothese houdt in dat we een nulhypothese (H0) en een alternatieve hypothese (H1) formuleren:

  • H0: De regressiecoëfficiënten zijn nul, wat betekent dat er geen lineair verband is tussen de onafhankelijke en afhankelijke variabelen.

  • H1: Ten minste één regressiecoëfficiënt is niet nul, wat wijst op een significant lineair verband.

Bij de F-toets wordt de F-statistiek berekend aan de hand van de volgende formule:

F = (R² / k) / ((1 – R²) / (n – k – 1)), waarbij:

  • R² is de determinatiecoëfficiënt;

  • k is het aantal onafhankelijke variabelen in het regressiemodel;

  • n is het aantal observaties (datapunten).

De F-statistiek wordt vervolgens vergeleken met een kritieke waarde uit de F-verdeling met (k, n – k – 1) vrijheidsgraden. Deze kritieke waarde is afhankelijk van het gewenste significantieniveau (bijvoorbeeld 0,05 of 0,01).

Als de berekende F-waarde groter is dan de kritieke waarde, wijst dit erop dat het regressiemodel statistisch significant is. Dat betekent dat het model een betekenisvol lineair verband tussen de variabelen weergeeft. In dat geval verwerp je de nulhypothese (H0) en accepteer je de alternatieve hypothese (H1).

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?