Wat is Kurtosis?

Als je onderzoek doet, heb je een verzameling gegevens over de onderzochte kenmerken van je onderzoeksgroep (databestand) nodig. Voor veel statistische analyses gelden eisen aan de frequentieverdeling van gegevens. Voor veel analyses is het nodig dat de gegevens normaal verdeeld zijn.  

Als de verdeling van je gegevens te veel afwijkt van de normaalverdeling, dan kan je veel statistische analyses zoals parametrische testen niet zomaar gebruiken. Bij de analyse van je gegevensverzameling wil je dus weten wat de kurtosis is voordat jij je conclusies gaat formuleren.

Kurtosis is een statistische maatstaf die wordt gebruikt om de vorm van de verdeling van gegevens te beschrijven. Je maakt dan een overzicht van je data om de frequentieverdeling af te lezen. Als je gegevens normaal verdeeld zijn, dan zie je dat veel data rond het gemiddelde geconcentreerd zijn. Hoe verder je van het gemiddelde afgaat, zie steeds minder gegevens. De frequentieverdeling toont in een grafiek dan een bult in het midden en twee staarten, links en rechts van het gemiddelde. Je wilt weten, hoe goed de vorm van bult en staarten overeenkomen met de normaalverdeling. Of, hoe sterk deze afwijken.

Noot: naast kurtosis ben je ook benieuwd naar evt. scheefheid (skewness) van je verdeling: als je verzameling scheef verdeeld is, dan wijkt je grafiek naar links of naar rechts af van een zuivere klokvorm. Dan is de verdeling niet symmetrisch ten opzichte van het gemiddelde van alle waarden.

Met de kurtosis meet je met een bepaald getal, hoeveel de gegevenspunten in een dataset zich concentreren in de buurt van de staart van de verdeling in vergelijking met het centrale deel van de verdeling.

Vormen van kurtosis

Er zijn twee belangrijke vormen van kurtosis. 

1. Leptokurtische verdeling (positieve kurtosis)

In een leptokurtische verdeling zijn de gegevenspunten meer dan normaal geconcentreerd in de buurt van het gemiddelde en maken ze relatief zware staarten. Dit betekent dat er meer extreme waarden in de dataset zijn dan je zou verwachten op basis van een normale verdeling. De excess kurtosis van een leptokurtische verdeling is positief.

2. Platykurtische verdeling (negatieve kurtosis)

In een platykurtische verdeling zijn de gegevenspunten meer dan normaal verspreid en maken ze lichtere staarten in vergelijking met een normale verdeling. Dit betekent dat er minder extreme waarden zijn dan je zou verwachten op basis van een normale verdeling. De excess kurtosis van een platykurtische verdeling is negatief.

Een normale verdeling (de zogenaamde Gaussische verdeling of klokvormige of bell curve) heeft een kurtosis van 3. Dit wordt vaak als referentiepunt genomen. Als de kurtosis van een dataset groter is dan 3, wordt deze als leptokurtisch beschouwd. Als de kurtosis kleiner is dan 3, dan wordt deze als platykurtisch beschouwd.

In de volgende figuur wordt een beeld gegeven van een curve volgens een normaalverdeling:

Figuur 1: klokvorm met normale spreiding en gemiddelde:

In een leptokurtische verdeling neemt een grafiek ongeveer de volgende vorm aan:

Figuur 2: klokvorm maar wel lage spreiding en hoog gemiddelde:

In een platykurtische verdeling neemt een grafiek ongeveer de volgende vorm aan:

Figuur 3: klokvorm maar wel hoge spreiding en laag gemiddelde

Inzicht in de kurtosis kan nuttig zijn bij het bepalen van de vorm van de verdeling. De kurtosis helpt ook bij het ontdekken van uitschieters (uitbijters; extreme waarden). Zo kan een gegevensbestand van werkstudenten en hun inkomen sterk worden vertekend door één of twee student-miljonairs en één of twee studenten die af en toe een paar tientjes verdienen met pizza’s bezorgen. Deze gegevens zullen extreem afwijken van de gemiddelde loonsom van werkstudenten. De extreme inkomensverschillen met de andere studenten vertekenen zo de gegevens en de grafiek. Het is dan de vraag of je die datapunten wel in je gegevensbestand moet houden: misschien zijn dit enkele ‘werkstudenten’ die toch niet relevant zijn voor jouw onderzoek.  

Hoe bereken ik kurtosis?

Er zijn verschillende manieren om kurtosis te berekenen. De meest gebruikte maat is de excess kurtosis. De berekening van kurtosis en de correctie van leptokurtische of platykurtische verdelingen hangt af van de statistische software of hulpmiddelen die je gebruikt. Veelal geeft statistische software vanzelf een waarde voor de kurtosis. Is de kurtosis ongeveer gelijk aan 3 dan is je dataset weinig leptokurtisch of platykurtisch verdeeld. Hoe verder het cijfer afwijkt van 3 hoe verder je dataset dus leptokurtisch of platykurtisch verdeeld is. Dan is er sprake van exces kurtosis.

Voor nader begrip volgt hier de berekening van exces kurtosis de informatie:

De berekening van de exces kurtosis (K) voor een dataset met N waarnemingen, waarbij Xi de individuele waarnemingen zijn, kan worden uitgevoerd met behulp van de volgende formule:

  • K = (1/N) * Σ((Xi - X̄) 4) / s4 - 3

Waarbij:

  • Σ staat voor de sommatie over alle waarnemingen i van 1 tot N

  • Xi is de individuele waarneming in de dataset

  • X̄ is het gemiddelde (gemiddelde) van de dataset

  • s is de standaarddeviatie van de dataset

Deze formule berekent het vierde moment van de dataset (gemeten ten opzichte van het gemiddelde) en vergelijkt het met het vierde moment van een normaal verdeelde dataset (die gelijk is aan 3). Het verschil van 3 wordt afgetrokken om de exces kurtosis te berekenen.

Noot: Om het vierde moment (M_4) van de dataset te berekenen, moet je de momenten berekenen van de verschillende gegevenspunten en deze samenvoegen. Het is een complexe berekening die je beter kan uitvoeren met behulp van statistische software voor statistische analyse dan met pen en papier.

Een positieve exces kurtosis duidt op een zwaardere staart en een scherpere piek dan een normale verdeling, terwijl een negatieve exces kurtosis wijst op een lichtere staart en een bredere piek dan een normale verdeling.

Het is belangrijk op te merken dat exces kurtosis een maat is van de vorm van de verdeling. Het moet wel altijd worden gebruikt in combinatie met andere statistische maatstaven en grafische weergaven van de gegevens om een volledig beeld te krijgen van de verdeling.

Hoe kan ik leptokurtische of platykurtische verdelingen corrigeren?

Er is een aantal voorzorgen en maatregelen die je kan volgen om afwijkingen van de normaalverdeling te beheersen.

1. Transformaties

Een veelgebruikte aanpak is het toepassen van wiskundige transformaties op de gegevens om de kurtosis aan te passen. Bijvoorbeeld, als je te maken hebt met een leptokurtische verdeling, kun je proberen om een worteltransformatie, logaritmische transformatie of een andere geschikte transformatie toe te passen om de verdeling dichter bij een normale verdeling te brengen.

2. Data Trimming of knippen van uitschieters

Het identificeren en verwijderen van uitschieters (extreme waarden) in je dataset bijvoorbeeld met behulp van een boxplot  kan de kurtosis verminderen. Dit kan de verdeling meer symmetrisch maken. Bij voorbeeld het schrappen van die ene miljonair die ook studeert in het gegevensbestand van studenten-inkomens kan dan veel verschil maken.

3. Data Stratificatie

Als je met gegevens werkt die uit verschillende subgroepen bestaan, overweeg dan om de gegevens te stratificeren en afzonderlijke analyses uit te voeren voor elke subgroep. Dit kan helpen bij het beheersen van de kurtosisproblemen in specifieke subpopulaties.

4. Gebruik van Robuuste Statistieken

In sommige gevallen kunnen robuuste statistieken en methoden die minder gevoelig zijn voor uitschieters, nuttig zijn om met kurtosis om te gaan.

Noot: kurtosis hoeft niet altijd gecorrigeerd te worden. Het hangt af van het specifieke doel van je onderzoek en daarmee, welke analyse je wilt uitvoeren. Het is de vraag, of de afwijking van een normale verdeling relevant is voor je onderzoeksvraag.

In sommige gevallen kunnen niet-normale verdelingen een informatief kenmerk zijn van de gegevens. Dan is dat geen probleem dat moet worden gecorrigeerd.  Immers het kan ook informatief zijn om te constateren, dat de frequentieverdeling voor lichaamslengtes in één land sterker geconcentreerd zijn rond het gemiddelde en weinig spreideng vertoont of juist heel divers is en een grote spreiding vertoond. Dat is voor bijvoorbeeld een kledingmerk van groot belang om te berekenen, welke kledingmaten in welke aantallen geproduceerd moeten worden.

Bij het beoordelen van de kurtosis is het daarom altijd verstandig om het doel van je onderzoek en de aard van je gegevens te begrijpen voordat je corrigerende maatregelen overweegt.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?