Wat is een regressieanalyse?

Regressieanalyse is een statistische techniek waarmee de samenhang tussen één of meer variabelen onderzocht kan worden. Je gebruikt een regressieanalyse om een voorspelling te doen of om de gevolgen van een bepaald verschijnsel vooraf te berekenen. Of, vanwege de samenhang tussen twee variabelen, om uit één bekende variabele een inschatting te maken van een samenhangende variable.

Voorbeelden:

  • Het aantal afgelegde kilometers van een auto geeft een voorspelling van de slijtage van de autobanden.

  • Het aantal uren neerslag in de vorm van hagel geeft een verwachting van de schade aan glastuinbouw en fruitbomen.

  • Iemands lichaamslengte geeft een indicatie van het lichaamsgewicht.

We spreken van een enkelvoudige regressieanalyse als je het verband wilt weten tussen één afhankelijke en een onafhankelijke variable. Je spreekt van meervoudige regressieanalyse als je juist van één onafhankelijke variabele wilt weten hoe deze op twee (of meer) afhankelijke variabelen doorwerkt. Voorbeeld: jaarsalaris als afhankelijke variabele van het aantal dienstjaren en het aantal opleidingsjaren.

Als tussen de onafhankelijke en afhankelijke variabele of variabelen een rechtstreeks verband zit, spreek je van lineaire regressie. Daar hebben we het in dit artikel over.

Er bestaan ook meer complexe verbanden tussen onafhankelijke en afhankelijke variabelen. In plaats van een rechtstreeks verband spreken we dan niet van een lineair maar van een curvilineair verband.

Het principe van een regressieanalyse

Voor de regressieanalyse wil je een regressievergelijking oplossen. Deze wordt in een formule uitgeschreven als:

Y = b0+b1X1+……+bpXp   of    Y = b0+b1X1+ b2X2……+bpXp

Daarbij is/zijn:

  • Y de afhankelijke variabele

  • X1,……+Xp de onafhankelijke/verklarende variabele (de predictoren)

  • b0, b1……bp de regressiecoëfficiënten

In wiskundige termen kun je hier de gewone wiskundige lineaire functie herkennen. Daarbij moet je de y berekenen door een waarde voor x in de functievergelijking in te vullen: f(x) = y.

Uit twee of meer y-waarden kun je dan een lijn trekken door de coördinaten van x1 en y1 met x2 en y 2.  (xn,yn)

Er kan ook sprake zijn van een samengestelde functie waarin je zowel voor Xm als voor Xn een waarde in de vergelijking moet invullen. Dan heb je in het functievoorschrift twee onbekenden die ingevuld moeten worden om de coördinaten te berekenen.

Belangrijke aannames bij de regressieanalyse

Voor de regressieanalyse ga je ervan uit dat de populatie die wordt onderzocht of de steekproef die wordt gebruikt, een normaalverdeling op de onderzochte variabelen kent. De onafhankelijke variabele heeft een bepaald effect op de afhankelijke variable. De relatie hoeft nog niet een geheel causaal verband te zijn, maar dat is wel mogelijk. De steekpoef is aselect genomen waardoor geen oneigenlijke vertekeningen of scheefheid in de data zijn te verwachten.

Voorbeeld enkelvoudige regressieanalyse

Als voorbeeld voor de bespreking van regressieanalyse wordt het gebruik beschreven van een entree-toets bij een opleiding. Het doel van de school is om tijdig achterblijvende studieresultaten te kunnen signaleren. Voordat het zo ver is, moet dit eerst in een onderzoek worden doorgerekend. Je gaat uit van een regressieanalyse.

Bij een toelatingsonderzoek worden de cijfers geregistreerd die een steekproef van aankomende studenten halen op een wiskundetoets. Binnen twee jaar wordt bekeken wat de geregistreerde studieresultaten per student zijn. De opleiding wil achteraf per student weten of de wiskundetoets vooraf van elke student iets zegt over te verwachten studieresultaten. De studiebegeleider wil straks vooraf per student een inschatting kunnen doen van welke studieresultaten een bepaalde student zou moeten kunnen bereiken tot aan de bachelorfase. Op zijn bureau ligt een dossier van een student met een testresultaat van x= 50.

Wat is dan het te verwachten studieresultaat van deze student in een cijfer y =? uitgedrukt?

In de volgende stappen gebruiken we de regressieanalyse om dat antwoord te vinden.

Lineaire enkelvoudige regressieanalyse: een stappenplan

Stap 1: Steekproef en eerste registraties voor x en y

Voor dit onderzoek hebben n = 10 studenten een wiskundetoets afgelegd. Binnen twee jaar, voordat de bachelordiploma’s in zicht komen, worden per student de studieresultaten gemeten. De gegevens zijn in de volgende tabel (tabel 1) samengevat en in figuur 1 uitgebeeld.

Regressieanalyse tabel 1
Tabel 1
Regressieanalyse figuur 1
Figuur 1

In de eerder gebruikte ‘wiskundetermen’ is nu:

  • Xi = score op de wiskundetoets

  • Yi= score studieresultaten

Stap 2: Passen van een lijn door de punten

De leiding van de school kan nu op het oog een liniaal proberen te passen tussen de punten, om zo te zien hoe rechtstreeks de x-waarde een voorspeler is voor de y-waarde. Dat blijft echter maar een visuele gok.

In een regressieanalyse probeer je juist een oplossing voor een wiskundige vergelijking uit te rekenen met concrete cijfers. Dit is voor een enkelvoudige lineaire regressieanalyse hetzelfde als bij een lineaire vergelijking in de wiskunde. De lineaire vergelijking in de wiskunde ziet eruit als:

f(x) = a+bx = y

Daarbij is a de intercept met de y-as. Dit is een constante waarde die bepaalt hoe hoog de laagste of hoogste waarde y heeft wanneer x nul of meer is. Het getal b is ook een constante. Deze bepaalt hoe sterk de y waarde stijgt (of daalt) met elke volgende stap van x. Hoe hoger b, hoe sterker y stijgt. Dit wordt ook de richtingscoëfficiënt genoemd.

Regressieanalyse is dus niets anders dan een lineaire vergelijking oplossen. Echter, we kennen de waarden voor de X en de Y. Je bent nu juist op zoek naar de waarde voor de regressiecoëfficiënten b0, b1……bp. Dat is dus een onbekende intercept en een onbekende richtingscoëfficient.

Voordat je een grafiek tekent, wil je weten wat de oorsprong is: welke waarde heeft y als x nul is?

Als je de grafiek eenmaal vanuit de oorsprong gaat tekenen, wil je weten waar de richtingscoëfficiënt is: welke stap omhoog of omlaag maakt de lijn met elke stap van een waarde van x naar de volgende waarde van x? Als elke volgende waarde van x +1 uitkomt op een waarde van y van ook precies +1, dan heb je een kaarsrechte lijn van linksonder naar rechts omhoog.

Stap 2b: Schatting berekenen

Om de werkelijke waarde te vinden van  b0+b1X1=yi berekenen we eerst een schatting. We willen weten wat de kleinst mogelijke afwijkingen zijn van de te tekenen lijn. Daarbij gebruiken we de resultaten uit de tabel en de figuur als steekproef van een populatie.

De opgave is dus: maak op grond van de bekende waarden voor de steekproefwaarde Yi een schatting van . Hierin is de y met een dakje de notatie van de geschatte waarde voor y.

De schatting van ŷ hangt samen met een schatting van β̂0+β̂1 voor het inpassen van de regressielijn

ŷ=β̂0+β̂1x.

Daarbij zijn β̂0 en β̂1 geschatte waarden van de werkelijke waarden β0 en β1. Daarom staan er ook dakjes boven deze bètawaarden genoteerd. We zoeken nu de meest waarschijnlijke waarde voor de coördinaten (xi, yi) op een geheel rechte lijn vanaf het nulpunt voor x. We zoeken dus de systematische afwijking van een y-waarde met een geschatte y-waarde.

Als de y as een horizontale lijn was, dan zoek je dus het punt waarop de coördinaten (x,y) een waarde voor ŷ geven met de grootste kansdichtheid onder de curve voor die bepaalde waarde van xi:

Grafiek
Figuur 2

In deze figuur is dat dus voor een bepaalde x-waarde, de waarde tussen 6 en 8. Voor ŷ = 7 heb je dan dus de meest waarschijnlijke inschatting. De b0 kennen we als de oorsprong van de mogelijk grafiek.

Stap 3: Afwijking tussen geschatte y-waarde en de werkelijke y-waarde

De volgende stap houdt nu in: de afwijking van het werkelijke punt van de coördinaten (x, y) ten aanzien van de geschatte waarden voor (x, y). Dat is dus:

Afwijking = yi – ŷi

Daarbij vervangen we xi in de voorspellingsberekening ŷ=β̂0+β̂1x

Stap 4: De kleinste-kwadratenmethode

Hoe schat je nu de best passende lijn door de puntenwolk?

Kies nu de best passende lijn die de som minimaliseert van de kwadraten van de afwijkingen tussen de waargenomen waarden van y en de geschatte waarden van y.

Het gaat dan om: SSE = ????

Daarbij is SSE de som van kwadraten van afwijkingen van y tegenover ŷ.

SSE = ∑ (yi – ŷi)2

De eenheid SSE wordt gewoonlijk de som van de kwadraten van de fout voor een regressieanalyse genoemd. Deze som wil je dus zo klein mogelijk hebben, want dan heb je de minste foutmarge. Daarom wordt dus gesproken van de kleinste kwadratenmethode.

De kleinste-kwadraten schatter van β̂0+β̂1 vind je door de volgende vergelijkingen op te lossen:

β̂1=     SSxy  /   SSx

Dat is de som van de kwadraten van het product van x en y gedeeld door de som van de kwadraten voor de waarden van x.

En β̂0 = My- β̂1Mx

Dat is het gemiddelde van de y-waarden minus het product van β̂1 maal het gemiddelde van de x-waarden. Het wiskundige bewijs laten we hier buiten beschouwing.

Eerst moeten we dus SSx en SSxy berekenen.

De uitkomsten zijn samengevat in tabel 2:

Tabel 2

Onderaan de tabel staan de sommen van de x- en de y-waarden, de kwadraten en de kruiselingse vermenigvuldigingen.

Ingevuld in de formules voor SSx en SSxy wordt dat:

Regressieanalyse formule 1

Daaruit volgen de waarden voor β̂1 en voor β̂0:

Regressieanalyse formule 2

Volgens het principe van de kleinste kwadratenmethode vind je zo de best passende lijn voor ŷ=β̂0+β̂1x met de volgende uitkomst: ŷ=β̂40.78+0.77x

De studiebegeleider aan het begin van dit voorbeeld vult nu de cijfers uit het studentdossier in:

ŷ=β̂0+β̂1x = 40,78 + (0.77)(50) = 79.28

Bij aanzienlijk minder punten in de loop van het tweede jaar voor het bachelorexamen, wordt het tijd voor een studieadvies.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?