Spreidingsmaten – Zo bereken je de variantie en de standaarddeviatie

Beschrijvende statistieken

Antwoorden op enquêtevragen of observaties (waarnemingen) in een onderzoek worden in data omgezet. De waarnemingen in een onderzoek kunnen slaan op: gebeurtenissen, concrete voorwerpen, eigenschappen en meningen. Voor het lezen van die data kunnen verschillende codes worden gebruikt. De score kan numeriek (in getallen uitgedrukt) of alfanumeriek (in letters gecodeerd) zijn. Elke vorm van codering is goed als maar goed wordt afgewogen, welk meetniveau (level of measurement) in het bewuste onderzoek leidt tot een verwerkbare, unieke score. In dit artikel gaan we uit van numerieke codes.

Cijfers samenvatten

De hele berg van cijfers, de hele dataset zegt pas iets, als daar een samenvatting over gegeven kan worden. De lezer wil iets weten over het zwaartepunt in de waarnemingen. Of waar deze cijfers naar tenderen. Welke statistieken beschrijven de verschijnselen die zijn onderzocht op een communiceerbare manier? Welke vatten het nieuws samen?

We noemen voor de volledigheid de meest relevante, beschrijvende statistieken:

De frequentieverdeling: aantallen scores die gerubriceerd zijn naar kenmerk of klasse, dan wel in percentages van het totaal aantal waarnemingen.
De centrale tendens ofwel de centrummaten die een neiging naar het midden geven: modus, mediaan en gemiddelde.
De spreidingsmaten (measures of dispersion) die de spreiding over hoge tot lage scores ofwel de veranderlijkheid in de scores geven: variantie en standaarddeviatie of standaardafwijking.

Centrummaten

In de statistiekblog centrummaten geven we uitleg over: modus, mediaan en gemiddelde. Met deze statistieken wordt aangeven in hoeverre de verzameling scores (observaties) homogeen zijn en om welk middelpunt zij samenhangen. Bij spreidingsmaten bezien we hoe uiteenlopend en verschillend de scores zijn. Die verscheidenheid kan slaan op hoezeer meningen in de populatie of de onderzoeksgroep verschillen, of hoe uiteenlopend of wisselvallig bepaalde gebeurtenissen zijn.

Voorbeeld Een tuinder zal wel willen weten hoeveel regen er vandaag gemiddeld valt. Sproeien of niet? Een fietser wil in dit voorbeeld juist weten of de regen alleen in verschillende regenbuien valt, of één lange plensbui wordt. Thuisblijven of af en toe schuilen? Dan is de spreiding dus van belang.

De belangstelling gaat van het mogelijke centrum van de scores (gemiddeld aantal millimeters regen) naar de spreiding (minuten of uren regen) over het hele veld van waarnemingen.

Wat betekenen spreidingsmaten voor de onderzoeker?

Voor een neutrale weergave van bepaalde waarnemingen of gebeurtenissen, kan al veel worden gezegd door iets te melden over de gemeenschappelijkheid in de populatie. Er zijn factoren die neutraal weergeven hoe het er met de maatschappij voorstaat. Enkele voorbeelden zijn:

Gemiddeld gebruik van energie
Het modale jaarinkomen
Sociaaleconomische kenmerken van de middenklasse huishoudens

Soms wordt een best guess voor wat de toekomst zal brengen gebaseerd op de modus of het gemiddelde.

Voorbeeld Iemand wil weten, voor de koop van een woning, wat nu een huishouden van 4 personen in dit type huis (flat, rijtjeshuis, bungalow) GEMIDDELD per jaar aan energie verbruikt. De mogelijke koper vraagt dan een uitleg over de afwijking, over het verschil tussen de hoge of juist lage energiekosten voor dít huis en de gemiddelde energiekosten voor dit type huis.

Bij de spreidingsmaten kan het verhaal juist zijn gericht op de mate waarin de populatie zo verscheidend is. Zo zal men met de energiecrisis iedereen kunnen vragen één graad minder warm te stoken. Maar er zijn huishoudens of bedrijven die per uur méér verstoken dan een heel dorp in een week bij elkaar. In de discussie over meer werken om het landelijk personeelstekort op te lossen, kan men uitgaan van gemiddeld enkele uren per week méér werken. De gemiddelde werknemer lijkt daartoe bereid te zijn. Maar niet iedereen wil zomaar 2 tot 4 uur extra gaan werken om het landelijke personeelstekort op te lossen. Niet elk huishouden of bedrijf kan gewoon de kachel lager zetten en gewoon door produceren. Bij het overwegen van maatregelen mag men dus rekening houden met de gemiddelde energiekosten of de modale werker. Men moet zich ook afvragen, hoe er wordt omgegaan met variantie in de populatie; hoe de populatie in alle verscheidenheid is te bereiken.

De onderzoeker wil daarom deze verscheidenheid in antwoorden of in scores verklaren. Als er een gedegen berekening heeft plaatsgevonden van de mathematische spreiding in de onderzoeksgroep, kan de verscheidenheid systematisch worden onderzocht. Dan zijn we op weg naar variantieanalyse (ANOVA: ANalysis Of VAriance) of meervoudige variantie-analyse (Multiple ANalysis Of VAriance). Laten we eerst een goed idee krijgen van standaarddeviatie, standaardafwijking en variantie.

Berekenen van variantie en standaarddeviatie of standaardafwijking

Met de standaarddeviatie wordt een maat aangeven die een afwijking van het gemiddelde redelijkerwijs kan treffen. Dus: hoe ver een willekeurige score naast het gemiddelde kan zitten.

In het volgende rekenvoorbeeld wil de eigenaar van een ijssalon weten hoeveel overuren per week iemand in de ijssalon invalt, of juist later komt of eerder naar huis gaat en wat de gemiddelde inzet is. Hij wil vooral ook weten hoezeer invalkrachten van dit gemiddelde afwijken.

De te verwachten afwijking wordt zodanig berekend dat een standaardafwijking of standaarddeviatie kan worden opgegeven. Deze geeft dan een maat voor de spreiding in deze steekproef (meting deze week) of een mogelijke benadering van de spreiding binnen de onderzochte populatie (alle werkweken in het ijscoseizoen). Zo kan de ijssalonhouder ook peilen wat nu een gewone of een buitensporige afwijking van het gemiddelde aantal overuren is.

Voor de berekening gaan we uit van een overurenlijstje van de medewerkers van de ijssalon (tabel 1).

Stap 1: Verzamelen van de scores

De ijssalonbaas heeft van elke medewerker alle gewerkte overuren genoteerd én de uren in kaart gebracht die nog ingehaald moeten worden. Hij heeft ook de overuren opgeteld.

Stap 2: Berekenen van het gemiddelde

Voor het gemiddelde gebruiken we de formule:

Gemiddelde (Mean) = (x1+x2+…x7)/ N = M

Alle scores van de medewerkers worden opgeteld: de x voor elke naam wordt dus de code voor haar/zijn aantal overuren (tabel 2).

(x1+x2+…x7) = 35

Het aantal medewerkers wordt opgeteld: N= 7

De som van gewerkte uren wordt gedeeld door het aantal medewerkers:

(11+10+9+8+6+-4+-5=35)/ 7 = 5

Stap 3: Afwijking van het gemiddelde

Voor elke score wordt het verschil berekend tussen de afzonderlijke score en het gemiddelde (tabel 3).

Dus, van de score voor Emanuel (x₁) wordt het gemiddelde (M=5) afgetrokken. Daaruit volgt een afwijking van 6 uren ten opzichte van het gemiddelde. En zo gaan we de hele rij af.

Nu blijkt de totale afwijking opgeteld op nul uit te komen. Dat is logisch, omdat elke positieve en negatieve afwijking nu tegenover elkaar uitgemiddeld raken. De afwijking naar boven wordt afgevlakt door de afwijking naar beneden. Wat de één heeft overgewerkt, wordt afgezwakt door hetgeen de ander niet gewerkt heeft door eerder naar huis te gaan.

Voor de standaarddeviatie zijn we echter geïnteresseerd in de absolute afwijkingen van de scores tot het gemiddelde. Immers, 6 uren wijkt ‘absoluut’ één uur af van het gemiddelde van 5. Het aantal minus 4 uren wijkt ‘absoluut’ ook één uur van het gemiddelde 5 af.

De eenvoudigste manier om alle absolute waarden te verkrijgen, vinden we in het kwadrateren van gevonden afwijkingen tussen score en gemiddelde.

Stap 4: Berekenen van de variantie

De variantie (aangegeven met S²) van een onderzoeksgroep is:

Variantie (variance): De som van de gekwadrateerde afwijkingen van de afzonderlijke scores en het gemiddelde gedeeld door het aantal cases.

Uitgeschreven in een formule:

S²^{= [}{x1-M}²+{x2-M}²+{x3-M}²+{x4-M}²+{x5-M}²+{x6-M}²+{x7-M}²] / N

Uitgewerkt in een tabel:

Stap 5: Van variantie naar standaarddeviatie

In de berekening van de variantie zijn alle afwijkingen van het gemiddelde per score berekend en gekwadrateerd. Voor de standaardafwijking of standaarddeviatie (standard deviation) geldt nu dat de vierkantswortel uit de variantie een maat geeft van de variabiliteit of wisselvalligheid voor de verdeling van scores uit een onderzoeksgroep uitgedrukt in oorspronkelijke meeteenheden. Dus, in dit geval in ‘gewerkte overuren’ en niet het kwadraat van die uren.

Voor de variantie gebruiken we als symbool S². Voor de standaarddeviatie (de wortel uit de variantie) gebruiken we als symbool de letter S.

Uit de berekening van de variantie volgt de standaarddeviatie door de vierkantswortel te berekenen uit de gevonden waarde voor de variantie. In ons voorbeeld:

S² =38,29 aantal gekwadrateerde overuren Dat is: S = 6,19 aantal gewone overuren.

Interpretatie van de standaarddeviatie

De ijssalonbaas weet nu wat de variantie in de overwerkuren van het ijssalonteam is (uitgedrukt als S²). Daarmee weten we dat er een standaardafwijking van 6,19 overwerkuren zit in de inzet van de zeven invalkrachten. Of deze wisselvalligheid nu wenselijk is of een probleem vormt, laten we aan de bedrijfsvoering van de ijssalonhouder over. Zo kan hij nastreven de standaardafwijking te verlagen, ofwel minder afwijkingen in het rooster toe te laten. Er wordt voor ongeveer één voltijdse kracht overgewerkt, dus hij kan ook een achtste medewerker willen aantrekken. Of juist blij zijn dat er op drukke dagen altijd medewerkers willen overwerken en, als het erg stil is, medewerkers (onbetaald) eerder naar huis gaan.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota

Motto: Beter weten door zuiver meten

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.

Spreidingsmaten – Zo bereken je de variantie en de standaarddeviatie

Beschrijvende statistieken

Cijfers samenvatten

Centrummaten

Wat betekenen spreidingsmaten voor de onderzoeker?