- Scriptium
- Posted on
- Geen reacties
Betekenis standaarddeviatie of standaardafwijking
De standaarddeviatie is een van de spreidingsmaten die iets zeggen over de opbouw en de verscheidenheid in scores die zijn gemeten op een variabele voor een bepaalde steekproef of van een gemeten kenmerk van leden van een bepaalde populatie. De maat voor standaarddeviatie wordt uitgedrukt met de hoofdletter S; in de literatuur wordt de term standaarddeviatie ook afgekort tot std.
De standaarddeviatie van een verzameling gegevens is de gemiddelde afwijking van deze gegevens (score op een variabele per casus) van het steekproefgemiddelde. Of: de gemiddelde afwijking van de waarde van een bepaald kenmerk van leden van één populatie. Deze waarde wordt uitgedrukt in de oorspronkelijke meeteenheid waarin het onderzochte kenmerk werd gemeten of waarin de scores op een variabele per case zijn gecodeerd.
Zo kan in een onderzoek naar drankgebruik worden gemeten in biertjes per week. Of, lichaamsmaten in meters en centimeters of in euro’s het inkomen per jaar.
Berekening standaarddeviatie
Een algemeen gebruikte berekeningswijze voor de berekening van de standaarddeviatie is weergegeven in de volgende formule:
Eerst wordt de variantie berekend:
Formule 1 – variantie:
De standaarddeviatie wordt verkregen uit de vierkantswortel uit S2:
Formule 2 – standaarddeviatie: √S2= S
Stappen op een rij
Wat zegt de bovenstaande formule?
De variantie wordt berekend in de volgende stappen:
-
1. Tot slot van de meetfase in een onderzoek wordt het aantal geldige cases geteld. Of er wordt een omvang van de populatie vastgesteld. Dat is dan de waarde N.
-
2. Voor elke score op een variabele per case wordt een waarde Xn berekend en genoteerd.
-
3. Voor elke waarde Xn wordt de afwijking van het gemiddelde berekend: X-M= plus minus d.
-
4. Elke d wordt gekwadrateerd.
-
5. Alle kwadraten worden opgeteld.
-
6. De som van de kwadraten wordt gedeeld door het totaal aantal elementen in de steekproef of de populatie N.
Hieruit volgt: σ2 of S2.
Met de vierkantswortel uit σ2 of S2 volgt dan σ of S.
Gegroepeerde scores of data in klassen
Niet in alle gevallen bevat de datasheet afzonderlijke waarden voor alle gevallen. Voor de overzichtelijkheid worden uitkomsten – veelal bij een groot aantal cases – in een frequentietabel gegroepeerd in intervallen of klassen. Een klasse is dan een groep resultaten met een ondermaat (x is gelijk aan of niet kleiner dan…) en een bovenmaat (een waarde van x kleiner dan …). In wiskundige notatie:
waarin a de laagste waarde in de verzameling is en b één klassebreedte groter.
Als data zijn gegroepeerd in klassen slaat de waarde van de standaarddeviatie op die grootteklasse waarin die waarde van S is te vinden. Dus, een getal dat correspondeert met het interval A < X < B.
Een werkvoorbeeld
In het volgende voorbeeld wordt uitgegaan van een vraag naar de wispelturigheid of standvastigheid van de prestaties van een cricketteam. In deze Engelse veldsport worden ‘doelpunten’ geteld in runs. In aantallen kunnen de scores oplopen tot enige honderden punten per wedstrijd. Voor een compacte en dus meer overzichtelijke registratie worden afzonderlijke scores per wedstrijd gegroepeerd in klassen en zo in een frequentietabel geregistreerd. Als er in een wedstrijd 133 punten zijn behaald en in een volgende 135 punten en nog eens 139 punten, dan zijn er dus drie wedstrijden gespeeld met tussen 130 en 140 runs.
Als in ons voorbeeld over een heel jaar is bijgehouden wat de scores per wedstrijd waren van de bewuste cricketvereniging, dan kan zijn geteld met de volgende klassenindeling:
Van nul tot 10 runs
Van 10 tot 20 runs
Van 20 tot 30 runs
en zo door tot een onwaarschijnlijke score van 250 tot 260 runs.
Eerst volgt de berekening van de variantie. Dan, de vierkantswortel uit die waarde. In ons voorbeeld blijkt de standaarddeviatie bij een gemiddelde van M= 100 runs op S=45 uit te komen. Dat wil zeggen dat per wedstrijd redelijkerwijs is te verwachten dat het cricketteam 100 runs scoort. Op een hele goede dag kan dat afwijken naar wel 145 runs (tussen de 140 tot 150 runs). Op een slechte dag komt het team thuis met 55 runs (tussen de 50 tot 60 runs). Dat is één standaarddeviatie verschil van het gemiddelde.
Bij een heel slecht gespeelde wedstrijd komt het team op wel twee keer de standaarddeviatie onder het gemiddelde: dan zijn er maar 10 runs gescoord. Tijd voor de coach voor een goed gesprek met het team. Bij een heel goed gespeelde wedstrijd komt de score twee keer de standaarddeviatie boven het gemiddelde. Matchfixing of tijd voor promotie?
Ruwe-data-methode voor de berekening van variantie en standaarddeviatie
In sommige gevallen betreft de steekproef enige honderden cases. Hoewel moderne statistische programma’s geen moeite hebben met grote datasets, wordt nu toch een methode gegeven voor een iets minder bewerkelijke methode. Immers, er zijn situaties waarin SPSS niet beschikbaar is of zelfs Excel buiten bereik ligt. Heb je alleen een datasheet en een zakrekenmachine, dan is elke stap die je kan besparen er weer een. En er is weer een bron van tik- en telfouten minder.
De ruwe-data-methode betreft, kort gezegd, het gedeeltelijk overslaan van stap 4 in het hierboven beschreven stappenplan: het berekenen van de afzonderlijke kwadraten van elke afzonderlijke afwijking van het gemiddelde.
In formule ziet de ruwe-data-methode er als volgt uit:
Formule 3 – ruwe-data-methode:
√S2= S
De ruwe-data-methode in stappen
-
1. Tel het aantal cases: N=
-
2. Maak de datasheet: Noteer de scores voor de onderzochte variabele (biertjes, lichaamsmaten, cricketscores…) {X1 …Xn} =
-
3. Bereken het gemiddelde van alle scores: M={X1+X2+….Xn}/N
-
4. Bereken voor alle scores X1 meteen het kwadraat zonder eerst de deviaties of afwijkingen per score te bereken: dn={Xn-M}. Dus: bereken niet eerst elke dn= (xn-M)
-
5. Deel de som van de kwadraten van de scores Xn door N
-
6. Trek van dit resultaat het kwadraat van M af: hieruit volgt S2
-
7. Trek de wortel uit S2: √S2= S
Kunnen ‘spelen’ met de steekproefstatistiek variantie en standaarddeviatie is bij nadere analyses een voorwaarde voor slim, snel en succesvol doorgronden van een berg gegevens tot een heldere en valide conclusie en een robuust onderzoeksverslag.
Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in
Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.
De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.