Variantie van een populatie of van een steekproef

De variantie van een populatie of van een steekproef uit die populatie is een spreidingsmaat voor de verscheidenheid of spreiding in de verdeling van die populatie of steekproef. De populatie betreft alle mogelijke elementen van een verzameling en een steekproef betreft een willekeurige (random) greep uit de gehele populatie. Voor beiden kan een variantie worden berekend.

Kort gezegd is de variantie:

Het kwadraat van de gemiddelde afstand van het geheel van afzonderlijke waarnemingen ten opzichte van het populatie- of steekproefgemiddelde.

Het belang van variantie

Deze afwijking van het gemiddelde is relevant voor een idee, hoe verscheidend of hoe eensluidend een bepaald kenmerk in een populatie is. Of, hoe uniform of wispelturig de scores op een onderzoeksvariabele zijn. Als voorbeeld: de gemiddelde temperatuur in augustus in Shot el Derid, midden in de Sahara, is 200 Celsius. Behaaglijk? Nou… de middagtemperatuur is 400 Celsius en rond middernacht wordt wel het vriespunt aangetikt. De spreiding van de temperatuur tussen middernacht en middag is dus wellicht interessanter dan de gemiddelde temperatuur.

De variantie is ook een getal dat berekend wordt om de standaardafwijking of de standaarddeviatie te vinden: de gemiddelde afwijking van het gemiddelde van de populatie of steekproef, uitgedrukt in dezelfde meeteenheid als de maat voor het kenmerk van de populatie of de scores die op de onderzoeksvariabele van een steekproef zijn gegeven. Voor een herkenbaar idee van de wisselvalligheid in mogelijke scores of de maat van een kenmerk wil men graag een getal in dezelfde meeteenheid zien als waarin in eerste instantie is gemeten.

Voorbeeld: een autofabrikant heeft behoefte aan een idee van de spreiding van lichaamsmaten onder de doelgroep autobestuurders bij het ontwerpen van een autocabine. Daarbij wordt de auto niet gebouwd voor mogelijke bestuurders die 3 meter 24 centimeter lang zijn, maar voor iemand van gemiddeld 1 meter 80 centimeter. Bij de bouw wil men evengoed weten wat waarschijnlijke afwijkingen van het gemiddelde zijn. Die wil men liefst uitgedrukt zien in gewone lichaamsmaten. Dus meters en centimeters.  

Als vuistregel mag worden aangenomen dat bij een normale verdeling van de populatie van bijvoorbeeld alle autobestuurders, ongeveer 95% van de populatie of steekproef niet meer in lengte afwijkt dan twee keer de standaardafwijking. Als voor het ontwerp van een auto dus cijfers bekend zijn over de lichaamslengte van de doelgroep, als daaruit de variantie is berekend, kan de standaarddeviatie worden benaderd door de vierkantswortel uit het getal voor σ2 of S2.

Als, bijvoorbeeld, een variantie is gevonden van σ2 of S2= 900 cm. dan volgt daaruit: 900= 30 cm. Dan weet men dat boven of onder de gemiddelde lichaamslengte van 1 m 80 cm ruimte moet zijn voor plus of min 30 cm. De auto moet ook nog passen voor iemand van 2 meter 10 centimeter. Tevens moet de cabine nog – zonder te verdrinken in de ruimte – passen voor iemand van 1 meter 50. De cabine wordt zo ontworpen dat alle mensen tussen 1 meter 50 cm en 2 meter 10 centimeter redelijk comfortabel kunnen zitten en rijden. Voor een persoon kleiner dan 1 meter 20 of iemand groter dan 2 meter 40 (dus 2*30 cm afwijkend; tweemaal de standaardafwijking van S=30cm.) moet een andere oplossing worden gevonden.

Berekening van de variantie

Als voorbeeld blijven we bij de autofabrikant. Deze beschikt over een forse verzameling van gegevens over een populatie of een willekeurige greep uit die populatie, een steekproef.

  • Het is bekend uit hoeveel elementen de verzameling in de steekproef bestaat, of hoe groot de populatie in aantal is (uitgedrukt in N=…)

  • Voor een populatie is het gemiddelde bekend (uitgedrukt in eenheden µ =…). Of uit een flinke steekproef is het gemiddelde berekend (uitgedrukt in eenheden M=…).

  • Voor elke waarneming van een kenmerk (hier: lichaamslengte) onder de populatie of uit de steekproef is een score bekend (uitgedrukt in eenheden X=…).

Voor de variantie wordt gezocht naar de afwijking van het gemiddelde (uitgedrukt in d=…)

De variantie wordt nu berekend in de volgende stappen:

  • Voor elke waarde X wordt berekend: X-M= plus minus d.

  • Elke d wordt gekwadrateerd.

  • Alle kwadraten worden opgeteld.

  • De som van de kwadraten wordt gedeeld door het totaal aantal elementen in de steekproef of de populatie N.

Hieruit volgt: σ2. of S2.

In formule:

Variantie afbeelding 1

Met één stap is nu ook de standaarddeviatie of standaardafwijking bekend:

De vierkantswortel uit S2: S2= S

Nut van gekwadrateerde afwijkingen in de berekening van de variantie

In de berekening wordt eerst voor elke afwijking het kwadraat genomen en dan pas worden alle afwijkingen van het gemiddelde opgeteld. Waarom worden niet meteen ‘de’ afwijkingen opgeteld? Wat is de zin van die ‘omweg’?

Als eerst alle afwijkingen worden opgeteld, dan middelen de positieve getallen vrijwel alle negatieve getallen uit. Voor de afwijking is men op zoek naar de absolute afstanden van het gemiddelde. Als elk getal, positief óf negatief, wordt gekwadrateerd, volgt steeds de absolute afstand: of de waarde voor X nu onder of boven het gemiddelde valt.

De volgende tabel geeft een voorbeeld. Een werkgever wil enig idee hebben van de spreiding van de overuren onder zijn medewerkers.

Met deze meting van S2 =38,29 weet de werkgever dat S= √38,29= 6,19 gemiddelde afwijking van het gewone rooster. De 6,2 uren in de week zijn beter herkenbaar. Er zijn dus medewerkers die zowat driekwart van een werkdag overwerken én er zijn er die zo’n driekwart dag in de week minder werken. Daar mag hij dan zelf wat van vinden.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?