Homoscedasticiteit

Homoscedasticiteit, ook bekend als constante variantie, is een statistisch concept dat verwijst naar de gelijke spreiding van de fouten, afwijkingen van het gemiddelde of variantie in een regressieanalyse. In eenvoudiger bewoordingen betekent homoscedasticiteit dat de variantie van de voorspellingen (residuen) rond de regressielijn constant blijft over het bereik van de voorspellingswaarden.

Voor een eerste beeld, waar homoscedasticiteit over gaat, lees je eerst voorbeelden uit de onderzoekspraktijk. Daarna lees je over de formule en de berekeningswijze van homoscedasticiteit

Voorbeelden van homoscedasticiteit in onderzoek
Sociale wetenschappen
Stel je voor dat je onderzoek doet naar de relatie tussen de studie-uren en de examenscores van studenten. Je wilt weten of er een significant verband is tussen de tijd die studenten besteden aan studeren en hun uiteindelijke examenresultaten.

Na het verzamelen van gegevens over het aantal studie-uren en de bijbehorende examenscores, voer je een regressieanalyse uit. Bij grafische inspectie van de gestandaardiseerde residuen tegen de voorspelde waarden, zie je dat de punten willekeurig over de horizontale as verspreid zijn, zonder een duidelijk patroon. Dit duidt op homoscedasticiteit, waarbij de variantie van de residuen constant blijft over verschillende niveaus van studie-uren. Dit betekent dat de spreiding van de residuen niet systematisch verandert naarmate de studie-uren toenemen of afnemen.

Economie
Stel dat je onderzoek doet naar de relatie tussen het inkomen en de uitgaven van consumenten. Je wilt weten of er een verband is tussen het inkomen van huishoudens en hun uitgavenpatroon.

Na het verzamelen van gegevens over het inkomen van huishoudens en de bijbehorende uitgaven, voer je een regressieanalyse uit. Grafische inspectie van de gestandaardiseerde residuen tegen de voorspelde waarden toont een willekeurige spreiding van de punten zonder een systematisch patroon. Dit suggereert homoscedasticiteit, waarbij de variantie van de residuen constant blijft over verschillende niveaus van inkomen. Met andere woorden, de spreiding van de residuen verandert niet op voorspelbare wijze naarmate het inkomen van huishoudens stijgt of daalt.

In beide gevallen duidt homoscedasticiteit op de aanname van constante variantie van de residuen. Dit betekent dat de schattingen van de regressiecoëfficiënten betrouwbaar zijn en dat de standaardfouten van de coëfficiënten valide zijn.

De constante variantie vergemakkelijkt ook de interpretatie van de resultaten, omdat de effecten van de voorspellende variabelen samenhangend en niet tegenstrijdig (consistent) zijn over het bereik van die variabelen.

Noot: deze voorbeelden zijn alleen gegeven als voorbeeld. De werkelijke gegevens kunnen in het echt flink verschillen.

Wat is een rekeneenheid of maatstaf voor homoscedasticiteit

Een veelgebruikte maatstaf voor homoscedasticiteit is de residu-variantie. Een residu is in dit verband het verschil tussen de voorspelde waarde van een variabele en de werkelijke waarde van een variabele. De waarde voor deze maatstaf wordt berekend door:

Het kwadraat van elk residu te nemen;
Dit kwadraat te sommeren en;
Te delen door het aantal observaties of registraties in je dataset (datapunten);
Minus het aantal geschatte parameters. Dat zijn er meestal 2 voor een lineaire regressie met een intercept en helling.

In formule voor residu-variantie uitgeschreven.

Residu-variantie=

Hierin zijn de variabelen:

Y_i:de werkelijke waarden van de afhankelijke variabele.
ŷ_i : de voorspelde waarden van de afhankelijke variabele op basis van de regressielijn.
n: het aantal datapunten.

Noot: het symbool ŷ wordt ook genoteerd als E(Y_i) is een afkorting van ‘expected value van Y’.

Rekenvoorbeeld

In het volgende rekenvoorbeeld lees je in opeenvolgende stappen hoe de waarde van deze maatstaf voor een bepaalde dataset wordt berekend.

Stel je voor dat je een dataset hebt met de volgende waarnemingen voor een eenvoudige lineaire regressie. Daarin is de waarde van X de onafhankelijke variabele en is Y de afhankelijke variabele.

Tabel dataset:

Stap 1: Bereken de gemiddelde Y-waarde:

Gemiddelde van Y= (3+5+8+6+10)/5=32/5=6.4

Stap 2: Bereken de voorspelde Y-waarden op basis van een regressielijn. Laten we een regressielijn passen die de vorm heeft E(Y)=a+bX. Na het passen van de lijn, krijgen we bijvoorbeeld E(Y)=2+1.4

Stap 3: Bereken de residuen en het kwadraat van elk residu.

Tabel residuen:

Stap 4: Bereken de residu-variantie:

Residu-variantie= (0.16+0.04+3.24+2.56+1.00)/ 5−2=7/3≈2.33

Nu hebben we de residu-variantie berekend. Dat is een maatstaf voor homoscedasticiteit.

Als deze waarde dicht bij nul ligt, betekent dit dat de voorspellingen rond de regressielijn weinig variabiliteit vertonen en dus homoscedastisch zijn.

In dit voorbeeld is de residu-variantie 2.33, wat relatief laag is, wat wijst op een redelijke homoscedasticiteit

Gangbare methoden die je kan gebruiken om homoscedasticiteit te berekenen

Het is altijd raadzaam voor een valide en betrouwbaar onderzoek om in je eigen analyse de homoscedasticiteit te controleren met behulp van grafische methoden of statistische tests. Er zijn daarvoor verschillende methoden die je kan gebruiken om homoscedasticiteit te berekenen of te aan te wijzen.

Grafische inspectie

Een eenvoudige manier om homoscedasticiteit te beoordelen, is door een grafiek te maken van:

De gestandaardiseerde residuen (de residuen gedeeld door de standaarddeviatie van de residuen) tegenover
De voorspelde waarden of de onafhankelijke variabelen.

Deze waarden zet je in een tabel en over deze tabel draai je een punten-grafiek of scatterplot.

Als de punten willekeurig over de horizontale as zijn verspreid zonder een systematisch patroon, wijst dit op homoscedasticiteit.

Als er een waaiervormig patroon of een trechtervormig patroon te zien is, kan dit duiden op het tegenovergestelde van homoscedasticiteit. Dat is dan heteroscedasticiteit (niet-constante variantie).

Levene's test

De Levene’s test is is een statistische test die de nulhypothese toetst dat de variantie van de residuen gelijk is over de verschillende groepen van de voorspellende variabelen. Als de p-waarde van Levene’s test significant is (typisch met een kritisch significantieniveau van 0,05), wijst dit op het bestaan van heteroscedasticiteit.

Breusch-Pagan test of White's test

Deze tests zijn andere statistische tests die de aanname van homoscedasticiteit toetsen door te kijken naar de relatie tussen de residuen en de voorspellende variabelen. Ze vergelijken de variantie van de residuen voor verschillende groepen van voorspellende variabelen. Een significante p-waarde duidt op het bestaan van heteroscedasticiteit.

Wat is het gevolg van heteroscedasticiteit op mijn onderzoeksdata en de uitkomst van mijn analyses?

Het gevolg van heteroscedasticiteit in een regressiemodel is dat de schattingen van de regressiecoëfficiënten nog steeds onbevooroordeeld kunnen zijn, maar ze zijn niet langer efficiënt. Omdat de variantie van de fouttermen niet constant is, zullen de geschatte coëfficiënten niet langer efficiënt zijn. Dit betekent dat ze een grotere spreiding kunnen hebben en minder betrouwbaar zijn in vergelijking met een situatie waarin homoscedasticiteit aanwezig is.

Daardoor worden de standaardfouten van de coëfficiënten onbetrouwbaar. Dit betekent dat de t-toetsen, p-waarden en betrouwbaarheidsintervallen van de coëfficiënten niet langer valide zijn. Het kan ook de interpretatie van de resultaten bemoeilijken, omdat de effecten van de voorspellende variabelen mogelijk niet consistent zijn over het bereik van de voorspellende variabelen.

In stappen betekent dit dus:

Heteroscedasticiteit: het tegenovergestelde van homoscedasticiteit (of constante variantie). Het betekent dat de spreiding van de residuen niet uniform is en varieert naarmate de waarde van de voorspellende variabele verandert.
Regressiemodel: een statistisch model dat wordt gebruikt om de relatie tussen een afhankelijke variabele en één of meer onafhankelijke variabelen te onderzoeken en te modelleren.
Schattingen van de regressiecoëfficiënten: bij een regressiemodel worden coëfficiënten geschat voor elke onafhankelijke variabele om de sterkte en richting van hun invloed op de afhankelijke variabele te bepalen.
Onbevooroordeeldheid: dit verwijst naar het idee dat de geschatte regressiecoëfficiënten (parameters) gemiddeld genomen gelijk zijn aan de werkelijke populatiecoëfficiënten. Met andere woorden, er is geen systematische fout in de schatting.
Efficiëntie: efficiëntie van de schattingen heeft betrekking op hoe nauwkeurig en precies de geschatte regressiecoëfficiënten zijn. Wanneer de schattingen efficiënt zijn, zijn ze onvervormd en hebben ze de kleinste variantie, wat betekent dat ze dichter bij de werkelijke populatiecoëfficiënten liggen.

In het geval van heteroscedasticiteit zullen de geschatte regressiecoëfficiënten nog steeds onbevooroordeeld zijn. Dat betekent dat hun gemiddelde waarde correct is.

Heteroscedasticiteit kan de interpretatie van de resultaten bemoeilijken en kan leiden tot vertekende statistische gevolgtrekkingen. Het kan een probleem zijn bij het nemen van beslissingen op basis van het regressiemodel zoals het wel of niet toelaten van een kandidaat voor een specialistische duikerscursus op basis van een toelatingstoets of het overgaan tot een medische behandeling op grond van bepaalde indicatoren. Daarom is het belangrijk om methoden toe te passen om met mogelijke heteroscedasticiteit om te gaan, zoals het toepassen van gewogen regressie of het transformeren van de variabelen om de variantie te stabiliseren.

Wat kan je doen aan heteroscedasticiteit?

Als heteroscedasticiteit wordt vastgesteld in een regressiemodel, kun je verschillende ingrepen overwegen om dit probleem aan te pakken en de betrouwbaarheid van de resultaten te verbeteren. Je kan vooral denken aan de volgende ingrepen:

1. Transformaties van de variabelen

Bij dit soort ingreep worden de waarden van de variabelen in het regressiemodel gewijzigd door ze te onderwerpen aan wiskundige transformaties. Vaak worden logaritmische, kwadratische of worteltransformaties gebruikt om de variantie van de fouttermen te stabiliseren. Dit kan helpen om de spreiding van de residuen te verminderen en zo het probleem van heteroscedasticiteit te verminderen of te elimineren.

2. Toevoegen van extra variabelen

Een andere manier om heteroscedasticiteit aan te pakken, is door extra variabelen aan het regressiemodel toe te voegen. Deze extra variabelen kunnen de heteroscedasticiteit helpen verklaren en dempen. Dit kunnen bijvoorbeeld interactietermen zijn tussen de onafhankelijke variabelen of kwadratische termen van de voorspellende variabelen.

3. Gebruik van robuuste regressiemethoden

In plaats van de gebruikelijke gewone kleinste-kwadratenmethode (OLS), kunnen robuuste regressiemethoden worden gebruikt. Robuuste methoden geven minder gewicht aan extreme waarden in de data, waardoor ze minder gevoelig zijn voor uitschieters en heteroscedasticiteit. Een bekend voorbeeld van een robuuste regressiemethode is de “Huber-methode”.

Noot: elke ingreep heeft zijn eigen voor- en nadelen. De keuze is afhankelijk van jouw specifieke situatie en de aard van je gegevens. Het is raadzaam om de effecten van elke ingreep grondig te evalueren en indien mogelijk de impact ervan op de resultaten te vergelijken voordat een definitieve keuze wordt gemaakt. Bovendien mag je bedenken dat bepaalde ingrepen de interpretatie van de resultaten kunnen beïnvloeden. Daarom is het altijd verstandig om de toegepaste methodologie en bevindingen duidelijk te rapporteren in je onderzoeksverslag of je toelichting op je analyses.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota

Motto: Beter weten door zuiver meten

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.

Homoscedasticiteit – Wat is het en hoe bereken je het?