- Scriptium
- Posted on
- Geen reacties
Centrummaten en beschrijvende statistieken
Bij het uitvoeren van onderzoek worden aan waarnemingen (observaties) of antwoorden op enquêtevragen codes toegekend. De waarnemingen kunnen slaan op gebeurtenissen, concrete voorwerpen, eigenschappen en meningen. Kortom, dit slaat op alles wat met begrip van het meetniveau (level of measurement) leidt tot een verwerkbare, wederzijds uitsluitende score. De score kan numeriek (in getallen) of alfanumeriek (in letters) zijn. In dit artikel gaan we uit van numerieke codes.
Dataset
De hele berg van cijfers, de hele dataset, zegt pas iets als daar een samenvatting over gegeven kan worden. Wat betekent die berg van cijfers? Waar ligt het zwaartepunt? Waar tenderen deze cijfers samen naar? Welke statistieken vatten het nieuws samen?
We noemen voor de volledigheid de meest relevante, beschrijvende statistieken:
-
De frequentieverdeling: aantallen scores die gerubriceerd zijn naar kenmerk of klasse dan wel in percentages van het totaal aantal waarnemingen.
-
De centrale tendens ofwel de centrummaten die een neiging naar het midden geven: modus, mediaan en gemiddelde.
-
De spreidingsmaten die de spreiding over hoge tot lage scores ofwel de veranderlijkheid in de scores geven: standaarddeviatie, standaardafwijking en variantie.
Centrummaten: modus, mediaan en gemiddelde
In andere artikelen bespreken we frequentieverdeling en spreidingsmaten. De meest populaire statistieken zijn juist: het gemiddelde, de modus en, soms, de mediaan. Een centrale tendens zegt vaak al genoeg voor een nieuwsbericht of een krantenartikel.
Met centrummaten geef je een indruk van de richting waarin de data wijzen. Je rapporteert over een midden in alle onderzochte gevallen (cases) als oriëntatiepunt in de zee van data. Je bent nog niet toe aan een uitspraak over de hele dataset, want er zijn nog geen analyses of conclusies. Voorlopig geef je de beschrijvende statistieken (descriptive statistics) van het geheel van gegevens. Dat is een eerste bewerking van de ruwe onderzoeksgegevens voordat je daar een nadere bewerking (analyse, toets, hercodering) op loslaat. Hier staan we vooral stil bij centrummaten die een centrale tendens (central tendency) aangeven.
De centrummaten zijn:
-
Modus (mode): met de modus wordt aangegeven welke afzonderlijke score op de hele schaal of van alle labels het meeste voorkomt. Kortom, welke het meeste werd geteld.
-
Mediaan (median): met de mediaan wordt het geval aangewezen dat in het geheel van geobserveerde gevallen net zoveel gevallen boven zich heeft met een hogere score als ook gevallen met een lagere scores. In getallen kan worden gezegd dat de mediaan uitsteekt boven de eerste 50% gescoorde gevallen van de steekproef (of de populatie), maar bungelt onder de volgende, tweede 50% gescoorde gevallen.
-
Gemiddelde (mean): het gemiddelde vormt het rekenkundige midden tussen de hoogste en de laagste score.
Voorbeelden en berekeningswijzen van modus, mediaan en gemiddelde
Modus
In de politiek streeft men, naast partij-overtuigingen, naar een aantrekkelijk politiek programma voor het grootste aantal gelijksoortige stemmers. Men spreekt dan van Jan Modaal. Vooral in inkomenspolitiek is men geïnteresseerd in die groep kiezers die in inkomensklasse het grootste deel van de populatie vertegenwoordigt. De vraag is dan welk concreet getal (geef of neem €500) op het salarisafschrift elke maand het meeste voorkomt. Deze mensen hebben dan een modaal inkomen. In welk vak in de inkomenstabel zitten de meeste ‘cases’?
Het modale inkomen van personen vinden we volgens Tabel 1 tussen €10.000 tot €20.000 met meer dan 3 miljoen personen in dezelfde inkomensklasse. Het lijkt erop dat de groep ‘modale inkomens’ over de jaren iets afneemt en de groep allerrijksten steeds groter wordt.
Mediaan
In een onderzoek onder 200 ondernemers is bezien hoeveel uren per week de zelfstandige ondernemers aan het werk zijn voor hun bedrijf. Daarbij is niet gelet op de branche (zoals bijles statistiek, administratiekantoor, foodtruck, hotel-restaurant) maar alleen op de uren per week werkzaam voor de eigen zaak. De gescoorde uren zijn ingedeeld naar klassen.
De aantallen gerapporteerde tijdblokken zijn geteld naar hoe vaak deze voorkomen in de groep. Er waren dus 10 ondernemers die 74–78 uren per week werkten. Daarmee is een frequentietabel gemaakt. Om straks bij de mediaan te komen, is ook de optelling van frequenties ofwel de cumulatieve frequentie van laag naar hoog gegeven.
Met een globale blik op Tabel 2 wordt de mediaan gevonden door het midden te vinden van de cumulatieve frequentie. In de derde kolom is steeds het voorgaande aantal observaties, de voorgaande frequentie, opgeteld bij de het volgende aantal observaties. Zo worden frequentie 8 en frequentie 6 samen cumulatieve frequentie 14. Als dus de hoogste stap in de optelling van alle gevallen gelijk is aan 200, dan ligt de mediaan – tussen 8 en 200 – rond de 100. Ongeveer honderd gevallen eronder en ongeveer honderd gevallen erboven.
In de frequentietabel vinden we een klasse met een cumulatieve frequentie die groter is dan, opgeteld, 85 cases maar gelijk is aan ongeveer 102 cases. Die klasse is dus kleiner dan 129 cases. Ofwel, ergens tussen de eerste 85 cases en de volgende 129 cases ligt het middelpunt tussen hoogste (200) en laagste (8) aantal cases. Ruw geschat wordt de hele onderzoeksgroep dus in tweeën opgedeeld rond een inzet van 44 tot 48 uur per week. Die ligt dus op de evenaar van onze dataplaneet. De bovenste helft van de ondernemers werkt meer dan 44 tot 48 uren per week. De onderste helft werkt minder dan 44 tot 48 uren aan de eigen zaak.
Gemiddelde
In de literatuur wordt het gemiddelde (mean) veelal aangegeven met de letter M (van Mean). Ook wordt een X met een streepje erboven gebruikt, maar deze code kan ook niet-X betekenen. Daarom houden wij ons aan M = Mean. De berekening van het gemiddelde gaat met de volgende stappen:
-
1: Optellen van aantal (geldige) cases: aangeduid met N.
-
2: Optelling van alle scores: aangeduid met xi waarbij i de rangvolgorde is van afzonderlijke cases.
-
3: Delen van de som uit de optelling door het aantal cases: (x1 + x2 + x3 ……..+xi) / N = M
Een alternatieve berekening is elke score afzonderlijk delen door de groepsgrootte (N) en dan deze delingen optellen. Dat komt rekenkundig op hetzelfde neer.
Als we met gebruik van Tabel 2 de optelling doen:
Het blijkt dat de 200 deelnemers in het onderzoek zich totaal met elkaar 10.040 uren per week voor de zaak inzetten. Het totaal van gewerkte uren (10.040) wordt gedeeld door het aantal cases (N=200). Dus deling van 10.040 door 200 cases geeft een gemiddelde inzet van 50,2 werkzame uren per week.
Gebruik van centrummaten in de rapportage
Wat zijn nu de centrummaten in dit onderzoek? Het blijkt uit deze set data dat de ondernemer in deze onderzoeksgroep niet minder dan 8 uren per week en niet meer dan 78 uren per week zich inzet. De gemiddelde inzet is 50,2 uren per week. De modale inzet blijkt 39 tot en met 43 uren en de mediaan van de onderzoeksgroep ligt op 44 tot en met 48 uren per week.
Nu is het aan jou als onderzoeker om te bepalen waar jij in je rapportage de nadruk op wilt leggen. Kies je voor het laagste aantal, de modale inzet, om te suggereren dat het allemaal wel meevalt met die werkdruk? Kies je voor het hoogste getal, het gemiddelde, om een urgentie aan te geven? Ga je veilig in het midden op de mediaan zitten? Of ga je de data toch nog verder uitspitten of beschrijven met de spreidingsmaten? Of daarna diepgaander analyseren?
Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in
Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.
De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.