Wat is een meervoudige regressieanalyse?

Meervoudige regressieanalyse is een statistische techniek waarbij je onderzoekt wat het effect van twee of meer onafhankelijke variabelen op één afhankelijke variabele is. Dat is anders gezegd een enkelvoudige regressieanalyse met een uitbreiding van de variabelen en dus ook van de gezochte regressiecoëfficiënten. Men spreekt dan dus niet van een enkelvoudige regressieanalyse maar van meervoudige of multiple regressieanalyse.

Het principe van een multiple regressieanalyse

Voor de regressieanalyse wil je een regressievergelijking oplossen. Deze wordt in een formule uitgeschreven als:

Y = b0+b1X1+……+bpXp            of           Y = b0+b1X1+ b2X2……+bpXp

Daarbij is/zijn:

  • Y de afhankelijke variabele

  • X1,……+Xp de onafhankelijke/verklarende variabele(n) (de predictoren)

  • b0, b1……bp regressiecoëfficiënten

In wiskundige termen kun je hier de gewone lineaire functie herkennen. Daarbij moet je de y berekenen door een waarde voor x in de functievergelijking in te vullen: f(x) = y. Uit twee of meer y-waarden kun je dan een lijn trekken door de coördinaten van x1 en y1 met x2 en y2 (xn,yn).

Er kan ook sprake zijn van een samengestelde functie waarin je zowel voor Xm als voor Xn een waarde in de vergelijking moet invullen. Dan heb je in de functie twee onbekenden die ingevuld moeten worden om de coördinaten te berekenen.

Deze samengestelde functie bevat dus zowel de term b1Xi als de term b2Xj en wellicht ook nog b3Xk en b4Xl

Hoe wordt een enkelvoudige regressie meervoudig?

De meervoudige regressieanalyse is een regressieanalyse die gebaseerd is op een lineaire regressielijn met niet één maar verschillende componenten. Net als bij een enkelvoudige regressieanalyse wil je weten wat de gevolgen zijn of welke voorspelling te maken is bij een waarde op een meting van variabele X of een populatieparameter. Je wilt dus weten hoe één afhankelijke variabele een samenhang heeft met twee of meer onafhankelijke variabelen.

Voorbeeld meervoudige regressieanalyse

Als voorbeeld van zo’n meervoudige regressievraag kun je denken aan een arbeidsmarktonderzoek. Je wilt bijvoorbeeld in een arbeidsmarktonderzoek het te verwachten salaris voor een bepaald carrièreplan inschatten. Dat doe je aan de hand van behalve de jaren opleiding als onafhankelijke variabele, ook variabelen als aantal jaren in dienst bij werkgevers, leeftijd en ziekteverzuim. Dat zijn dus 4 onafhankelijke variabelen die met elkaar de afhankelijke variabele bepalen. Elke waarde voor Xi, Xj, Xk, Xl heeft een bepaald effect op het carrièrepad en te bereiken salarisniveau van een werknemer.

Voorbeeld non-lineaire regressielijn

Wielrenners zullen van het drinken van glazen water op een fietstocht recht evenredig een sanitaire stop maken. Maar van bier of koffie zal iemand meer dan lineair van de fiets moeten stappen door het verhoogde vochtafdrijvende effect van bier en koffie. De fietstocht duurt dan langer dan wanneer deze is geschat op basis van een paar waterdrinkpauzes.

Voorbeeld ‘gaten’ in de lijn

Onder invloed van seizoenen zal het inkomen van strandtenthouders niet alleen afhangen van bezoekersaantallen, maar ook van de periode waarin de gemeente de pacht voor het seizoen stopzet. Dan zitten er ‘gaten’ in de inkomenslijn: er is op die momenten geen omzet van bezoekers.

Het belang van een meervoudige regressieanalyse

Je zou denken: waarom zo moeilijk doen? Knip gewoon elke onafhankelijke variabele op en voer verschillende enkelvoudige regressievergelijkingen uit. In principe zou dat ook kunnen: je onderzoekt bijvoorbeeld alleen wat de relatie is tussen leeftijd en salaris, en alleen de relatie tussen opleiding en salaris. Voor de keuze van een multiple regressievergelijking ga je terug naar het doel van je onderzoek. Zo zal een pedagoog bij onderzoek naar schoolsucces willen weten wat het gemeenschappelijke effect is van opvoeding, sociaaleconomische omgeving, persoonlijke aanleg en vriendenkring. Elke afhankelijke variabele alleen geeft soms een te eenzijdig beeld van de situatie. Dan kan op theoretische gronden juist worden gekozen voor een meervoudige of multiple regressieanalyse.

Andersom kun je door een kritische blik op de onderzoeksvraag van mening zijn dat je te veel in één keer wilt onderzoeken. Misschien wil je in het arbeidsmarktonderzoek alleen onderzoeken wat het percentage ziekteverzuim doet met iemands loopbaan. Of wil je als afdeling Vorming & Opleiding voor de planning van vervolgcursussen alleen de aandacht richten op het verband tussen jaren interne opleiding en loopbaan.

Berekenen van een multiple regressieanalyse

Vaak wil je als werkvoorbeeld een gewone pen-en-papier-oplossing zien voor het uitrekenen van een statistische opgave. In het geval van een meervoudige regressievergelijking kun je echter beter gebruikmaken van de statistische tools in Excel of een statistisch pakket (zoals SPSS) voor de databewerkingen.

In een formule zie je al hoe complex alle berekeningen zijn bij één afhankelijke en één onafhankelijke variabele. Bij een multiple regressievergelijking zijn er nóg meer variabelen. Het aantal data wordt enorm groot. Dan is een pen-en-papier-oplossing voor multiple regressieanalyse heel bewerkelijk, erg foutgevoelig en veel handwerk. Het is dus niet aan te raden. Je hebt dan de keuze tussen een afgeslankte onderzoeksvraag met minder variabelen, of passende hulpmiddelen inzetten, zoals SPSS of STATA.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?