Wat is scheefheid?

Een databestand met waarden voor een bepaalde variabele X of een kenmerk van een populatie vertoont scheefheid (skewness) als een beduidend aandeel van de frequentieverdeling voor de waarden voor de onderzochte variabele hoger of lager uitvalt dan de gemiddelde waarde van de onderzochte scores. De scheefheid kan bestaan uit rechts-scheefheid of uit links-scheefheid. Daarmee wordt bedoeld dat de asymmetrie van de verdeling rond het centrum of naar links neigt of naar rechts neigt. De voor normaalverdeling kenmerkende klokcurve (kromme van Gauss) is verwrongen met een bult naar links of een bult naar rechts. Dan is er geen sprake van een normale verdeling en dat beperkt de statistische analysemogelijkheden in het onderzoek.

De rechts-scheve verdeling

Als voorbeeld geldt de inkomensongelijkheid in Nederland. Is het inkomen in Nederland normaal verdeeld of blijkt er een ongelijkheid in inkomen? Zijn er dus evenveel rijke en heel rijke mensen als arme en heel arme mensen? Of zijn er heel weinig mensen die heel veel verdienen en heel veel mensen die heel weinig verdienen?

De volgende grafiek geeft een beeld van de frequentieverdeling van inkomens in 2020:

Scheefheid tabel 1
Rechts-scheve verdeling: verdeling van inkomen in Nederland in 2020

Aan deze grafiek is af te lezen dat het merendeel van de huishoudens in Nederland rond mag komen van tussen 20 en 22 duizend euro per jaar. Dat gaat om 539 x duizend huishoudens.

In 2020 bedroeg het gemiddeld persoonlijk inkomen van alle mensen in particuliere huishoudens met een inkomen 34.000 euro per jaar. Bij personen met werk als voornaamste inkomensbron was dat 45.000 euro. NB: inkomen kan voortkomen uit huuropbrengsten, subsidies, sociale uitkeringen, dividenduitkeringen, lijfrentes, toelages of loon uit arbeid.

Daarmee wijkt het modale inkomen van 21.000 euro fors af van het gemiddeld inkomen van 45.000 euro per jaar. Het gemiddelde inkomen is ruim twee keer zo hoog. Echter, het interval tussen 44 en 46 duizend euro per jaar betreft 188x duizend huishoudens. Het interval van tussen 20 en 22 duizend euro betreft 539x duizend huishoudens. Dit is dus een zogenaamde rechts-scheve verdeling, omdat de bulk van alle waarden van de variabele (hier: de ‘verdieners’) links van het gemiddelde zit. Het oppervlak onder de curve is rechts lager en dat veroorzaakt daar de scheefheid. Het is verder aan beleidsmakers en politiek om daar wat van te vinden.

De links-scheve verdeling

In het volgende voorbeeld is ook sprake van scheefheid, maar nu ligt de bult juist rechts van het gemiddelde. De grafiek geeft een beeld van arbeidsverzuim onder mannen van 15 tot 75 jaar. Deze cohorten zijn gecorrigeerd voor demografische verschillen in aantallen per leeftijdsklasse. Bij een gemiddeld verzuim van 3,8% werkbare dagen per jaar is de grootste groep verzuimers, de groep van 55 tot 65 jaar, met een verzuimpercentage van 6,4 werkbare dagen per jaar.

Scheefheid grafiek 1
Links-scheve verdeling

Nu is de scheefheid de andere kant op doorgeslagen. Men spreekt nu van een links-scheve verdeling. Ook in dit geval is het weer aan beleidsmakers en de politiek er iets van te vinden, dat het verzuimpercentage in haast gelijke tred toeneemt met de leeftijd.

Checklist normaal of scheef verdeelde data

Samengevat betreft de scheefheid in de frequentieverdeling van de onderzochte variabele of het onderzochte populatiekenmerk dus een afwijking van een ‘normale ‘verdeling bevat.

  • Normale verdeling: kenmerkt zich door een klokvorm, waarbij de linker- en rechtervleugel dezelfde vorm hebben. De verdeling is symmetrisch rond het gemiddelde. Daarmee zijn zowel gemiddelde als modus als mediaan gelijk.

  • Scheve verdeling: modus, mediaan en gemiddelde wijken allemaal van elkaar af.

  • Rechts-scheve verdeling: de modus (meeste elementen met dezelfde waarde) kent een lagere waarde op de onderzochte variabele. In ons voorbeeld: inkomen per jaar.

  • Links-scheve verdeling: de waarde van de modus voor de onderzochte variabele betreft juist een hoger getal dan het gemiddelde.

Beperking in analysemogelijkheden door scheefheid

Voor veel statistische analyses wordt voor een valide uitspraak vanuit continue gegevens uitgegaan van een normaal verdeelde dataverzameling c.q. een redelijke benadering van ‘normaliteit’. Algemeen gangbare tests die normaliteit vereisen, zijn:

  • Enkelvoudige of meervoudige variantieanalyse (ANOVA, MANOVA)

  • Students-t test van verschil

  • One sample F-test

  • One sample χ2

Als een verdeling normaal verdeeld is, kan gebruik worden gemaakt van één uniforme tabel voor het opzoeken van de waarschijnlijkheid van een bepaald interval onder de curve. Zo worden eventueel bedoelde significantiewaarden gevonden. Als een verdeling niet normaal verdeeld is, als de verdeling last heeft van scheefheid, dan kan niet zomaar gebruik worden gemaakt van die tabellen.

Berekening van scheefheid

Algemeen wordt voor een onderzoek waarbij vooraf geen duidelijke reden is om aan te nemen dat de scores grote scheefheid zullen vertonen, gestreefd naar minimaal N=30 cases als het moet, en N=100 als het kan. NB: er bestaan berekeningswijzen om nauwkeurig te berekenen hoe groot een steekproef of een onderzoeksgroep moet zijn om tot een bepaald statistisch betrouwbaarheidsniveau analyses uit te voeren.

Om te weten hoe de onderzochte variabele zich in een frequentieverdeling gedraagt, kan de (mogelijke) scheefheid worden berekend. Hoewel in de meeste gevallen daar de computer voor wordt gebruikt, geven we voor zelfredzaamheid als er géén computer beschikbaar is, de volgende berekeningswijzen:

Rekenstappen:

  • 1. Bereken het gemiddelde van de steekproef;

  • 2. Bepaal de modus of bepaal de mediaan;

  • 3. Bereken de variantie en dan de standaarddeviatie.

De eerste asymmetrie-maat (volgens Karl Pearson) is dan:

De tweede berekeningswijze richt zich niet op de modus maar op de mediaan:

We geven één rekenvoorbeeld volgens formule 1 voor de berekening van de scheefheid op basis van een bekende modus:

Een warme bakker wil onderzoeken of zijn pistolets doorgaans wel netjes 75 gram per stuk wegen. Te zware broodjes kosten te veel product, te lichte broodjes kunnen leiden tot klachten. Uit de hele voorraad heeft hij willekeurig 30 broodjes secuur afgewogen.

De registraties zijn geordend in een frequentietabel:

Scheefheid tabel 2

Voor de visuele inspectie zijn deze gegevens omgezet in een grafiek:

Scheefheid grafiek 2

Dat ziet er alvast niet uit als een klokvormige curve. Dus de benadering van een normale verdeling kan al worden betwijfeld.

De gegevens zijn doorgerekend, met als eerste resultaat:

Rekenvoorbeeld
Aantal in de steekproef
N = 30 broodjes
Steekproefgemiddelde
M = 74,5
Steekproefvariantie
S2= 12,5
Gemiddelde afwijking of standaardafwijking
S = 3,53
Het modale broodje
Mod. = 75

Ingevuld in de formule voor scheefheid volgens Pearson:

(74,5 – 75) gedeeld door 3,53 =  – 0,14

Omdat de modus al 75 gram is en omdat het gemiddelde 74,5 gram is, was er al een sterk vermoeden van ‘scheefheid’. Nu is de scheefheid exact berekend.

Dit wil niet zeggen dat de bevindingen waardeloos zijn. De bakker kan zich afvragen of er niet voorafgaand aan het bakken meer secuur gewogen kan worden, of dat één standaardmal gebruikt moet worden. Voor eventueel verdere analyses mag hij op zoek gaan naar andere analysemethoden die minder gevoelig zijn voor scheefheid, of een correctie voor scheefheid zoeken. Dan wel onderzoek overwegen op basis van een grotere steekproef. Daarbij kunnen de nu gevonden afwijkingen in de data volgens de wet van de grote getallen meer wegvallen.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?