Een frequentieverdeling met evenveel scores onder als boven het gemiddelde

Voor een populatie of voor een steekproef wordt een variabele X onderzocht. Voor elke waarde van X wordt berekend hoe vaak deze in een bepaalde populatie voorkomt. Ofwel, welke verdeling van waarden er geldt voor de onderzochte populatie of steekproef. Dat is de frequentieverdeling.

Voor veel populaties of gegevensverzamelingen geldt dat de meeste observaties geconcentreerd zijn rond het midden van de frequentieverdeling. Het is dus het drukste tussen de extreme waarden binnen het bereik van de verzameling. Hoe minder gevallen, hoe kleiner het oppervlak onder de curve. Hoe meer gevallen met een bepaalde waarde, hoe groter het oppervlak onder de curve. Ofwel: hoe lager de lijn van de curve, des te lager wordt de frequentie van bepaalde waarden. Naarmate de afstand van de centrale concentratie toeneemt, neemt de frequentie van de observaties dus af.

We gaan uit van zoveel gegevens dat de scores alle reële getallen kunnen aannemen. Ook een continue reeks cijfers vormt tussen minus oneindig en plus oneindig (- > x< +). Immers: als je maar genoeg data hebt, kun je deze wel in een histogram weergeven, maar je bent vooral geïnteresseerd in de lijn die over de toppen van het histogram verloopt. In veel statistische pakketten kun je veelal ook een continue lijn over je histogram heen laten schrijven. Bedenk hier dus dat de waarden die tussen schoenmaat 38 en 40 liggen, zijn te becijferen als 38,1; 38,2….39,999999999999999999 en dan 40. 

Hoe ziet de normaalverdeling eruit?

De grafische weergave of curve voor zulke frequentieverdelingen hebben een zogenaamde klokvormige vorm. Een voor de statistiek belangrijk voorbeeld van zo’n verdeling met een klokvorm is de normaalverdeling. In de volgende figuur wordt een ruwe schets gegeven van een curve volgens een normaalverdeling:

Normale verdeling figuur 1
Figuur 1

De normale verdeling is een verzameling van verdelingen

NB: niet elke klokvormige curve is mathematisch ook een zuivere normale verdeling: we spreken veeleer van een benadering van de normaalverdeling. Veel verschijnselen in de natuur of in de samenleving benaderen de normale verdeling maar zijn niet geheel ‘normaal verdeeld’. Te denken valt aan: de verdeling van variabelen als lichaamslengte, gewicht, bloeddruk. Of variaties bij het kruisen van dieren op een bepaalde eigenschap. Bijvoorbeeld schapen met meer of minder wolopbrengst. Of meer abstracte kenmerken zoals ‘intelligentie’ met een hoge concentratie van mensen met een ‘normale’ intelligentie. Een ander voorbeeld is wachttijden op het terras voordat je bestelling wordt opgenomen. Elke normaalverdeling heeft geheel eigen parameters, waardoor de specifieke verdeling en dus ook de curve wel klokvormig is, maar toch verschillende verschijningsvormen heeft.

Verschillen in verschijningsvorm van de normale verdeling

Afhankelijk van de populatieparameter (gemiddelde) µ of de steekproefstatistiek M, en de populatieparameter (standaarddeviatie) σ of de steekproefstatistiek S, volgt de normale verdeling een meer platte of spitse vorm, of zit er juist wat tussenin.

Normale verdeling figuur 2
Figuur 2: klokvorm maar wel hoge spreiding en laag gemiddelde.

Aan figuur 2 lees je af: een hoge spreiding van data rond het gemiddelde en dus een hoge waarde voor populatieparameter (standaarddeviatie) σ. Ook een lage waarde voor de populatieparameter (gemiddelde) µ.

Normale verdeling figuur 3
Figuur 3: klokvorm maar wel lage spreiding en hoog gemiddelde.

Aan figuur 3 lees je af: een lage spreiding van data rond het gemiddelde en dus een lage waarde voor populatieparameter (standaarddeviatie) σ. Ook een hoge waarde voor de populatieparameter (gemiddelde) µ.

Praktijkvoorbeeld normale verdeling

Op een terras voor koffie en kleine kaart wil een ondernemer dat er flinke doorloop aan de tafeltjes is. In het begin van het seizoen valt het hem op dat klanten of al na 5 minuten worden bediend of een kwartier moeten wachten. De spreiding is nog geen echt probleem, maar 20 minuten wachten op de bestelling vraagt wel wat geduld.

Naarmate het meer ‘terrasweer’ wordt, merkt hij dat klanten óf nog voordat ze zijn gaan zitten meteen moeten bestellen, óf soms wel een half uur moeten wachten voordat er iemand komt. De spreiding is zorgelijk, want klanten voelen zich geïntimideerd omdat ze nog met hun jas aan meteen moeten bestellen, of ze lopen na te lang wachten gewoon weg.

De ondernemer ontwikkelt een slim systeem van oproepkrachten. Met de gewone staf kan hij elke klant tussen 5 en 10 minuten bedienen met een ‘rotsvast’ gemiddelde van 7,5 minuut. Daarmee worden de meeste klanten rond de 7,5 minuut bediend. Ze kunnen op de kaart kijken, rondkijken hoe de tosti’s er hier uitzien of de geur van verse appeltaart opsnuiven. Zodra de smaakpapillen zijn aangesproken, staat er al iemand om de bestelling op te nemen. De frequentie van niet te vroeg en niet te laat geholpen klanten neemt dus geruststellend toe.

Het belang van de normaalverdeling

De normaalverdeling is een van de belangrijkste, theoretische frequentieverdelingen in de statistiek. De normaalverdeling is een belangrijk ankerpunt voor de beschrijving van de vorm van veel kans- of frequentieverdelingen van verzamelde populatie- of steekproefgegevens. Na de meetfase is dus een belangrijke vraag of de verzamelde populatie- of steekproefgegevens normaal verdeeld zijn. Dus of deze voor verdere analyses in voldoende mate de theoretische normaalverdeling benaderen.

Wijkt de frequentieverdeling in cijfermatige wijze of in vorm te zeer van de ‘normaalverdeling’ af, dan verliezen gebruikelijke statistische toetsen, schattingen en data-analyses hun validiteit. Wat er dan uit de analyse volgt, kan er betrouwbaar uitzien, lijkt waardevol, maar zegt niet wat het behoort te zeggen. Alle tests waarvoor de betekenis van de parameters of statistieken goed vast moet staan, wankelen dan sterk.

Waaraan herken je de normale verdeling?

Kort en goed herken je de normale verdeling aan:

  • De genoemde klokvorm van de curve.

  • De symmetrische vorm in de frequentieverdeling: de waarden lager dan het centrum en de waarden hoger dan het centrum vormen een identieke figuur.

  • De drie centrummaten zijn geheel identiek aan elkaar. De waarde voor het gemiddelde (mean) is gelijk aan de waarde voor de modus (mode) en is gelijk aan de waarde voor de mediaan (median). Voor een normale verdeling geldt: µ (of M) = Mod = md.

Daarbij valt 95% van alle observaties binnen twee standaarddeviaties (genoteerd als σ voor de populatie en S voor een steekproef) van het gemiddelde, en 68% binnen één standaarddeviatie.

De exacte theoretische proportie van gevallen die in verschillende intervallen onder de curve vallen, wordt in speciale tabellen gegeven. Of het wordt door het gebruikte statistische pakket (bijvoorbeeld SPSS) uitgeprint. Hoeveel mensen er van 5 tot 10 minuten moeten wachten op hun koffie, of de mensen die tussen de 20 en 30 minuten nóg niemand aan hun tafel hebben gezien, is dus goed te bereken. Danwel, de kans dat je op het bewuste terras net zo lang op je koffie kan wachten totdat je eigenlijk na 45 minuten alweer weg moet. Als dus de variabele X staat voor wachttijd, dan zoekt de onderzoeker naar een waarde voor: 5 <x< 10; 20<x<30 of x<45.

Berekening van een interval in de frequentieverdeling onder de normaalverdeling

Voor de bepaling van de relatieve plaats van een bepaald interval onder de curve, bekijken we eerst de wiskundige onderbouwing van de normale verdeling. In dit voorbeeld gaat het bijvoorbeeld om het cluster mensen dat al binnen 10 minuten de koffie op tafel heeft, óf het cluster mensen dat na 20 minuten geduld moet beoefenen danwel binnen 30 minuten maar weer weggaat.

De formule en de bijbehorende curve worden vaak genoemd als kromme van Gauss of Gauss -verdeling. Alleen als elke mogelijke waarde van de variabele X is gepaard aan de frequentieverdeling of dichtheid onder de curve, zoals wordt voorgeschreven door de formule voor normaalverdelingen, is er sprake van een zuivere normaalverdeling. De formule ofwel het functievoorschrift voor de normaalverdelingsfunctie is als volgt:

Normale verdeling formule 1
Formule 1

Daarbij is: x een bepaalde waarde van de variabele X; µ het populatiegemiddeld; σ2 de steekproefvariantie.

De symbolen π en e zijn constanten ofwel vaste getallen: De e is het getal van de Duitse wiskundige Euler. Dit is het grondgetal van een natuurlijk logaritme met een waarde van (afgerond) 2,7182. Het getal π (bekend uit de vlakke meetkunde voor het berekenen van oppervlakten van een cirkel: 2. π.r2) heeft een waarde van (afgerond) 3,1416.

Het werkzame gedeelte van de formule, waar het ons vooral om te doen is:

Normale verdeling formule 1
Formule 2

Daarin zitten dus de bijzondere waarde van de variabele X (bijvoorbeeld: x= tot 10 minuten moeten wachten op bediening) samen met de twee populatieparameters µ en σ2. Deze zijn per populatie of per steekproef of per variabele steeds anders. Daarmee verschillen normaalverdeelde populaties of datasets dus in zowel hun gemiddelde als in hun standaarddeviaties. De regel voor het vinden van de kansdichtheid voor een bepaalde waarde van de variabele volgt dezelfde regel. Dus: wat de kans is dat je op dit of dat terras al binnen x=10 minuten bent bediend of bijna een half uur x=30 minuten kan wachten.

Om nu niet te verdrinken in stapels afzonderlijke tabellen voor elke theoretisch mogelijke normale verdeling, wordt voor het gemak gewerkt met een variabele in termen van een gestandaardiseerde score ofwel een z-score. De gestandaardiseerde score geeft een referentiepunt voor een bepaalde score in de verdeling van mogelijke verdelingen.

De formule voor de gestandaardiseerde score is:

Normale verdeling formule 3
Formule 3

Als nu de onderzochte variabele een gestandaardiseerde z-score is, zodat µ = 0 en σ = 1, dan wordt de regel of het functievoorschrift een stuk eenvoudiger:

Normale verdeling formule 4
Formule 4

Deze gestandaardiseerde-score vorm van de verdeling maakt het nu mogelijk om één tabel voor kansdichtheden of dichtheden onder de curve te gebruiken voor elke normale verdeling, ongeacht de bijzondere parameters van die populatie of de statistieken van de steekproef. 

Berekening van een interval in de frequentieverdeling onder de normaalverdeling

Tegenwoordig wordt al snel gebruikgemaakt van een statistisch pakket om de waarden te vinden voor bepaalde cumulatieve waarschijnlijkheden voor verschillende gestandaardiseerde waarden. Of het nu gaat om schoenmaten, wachttijden, kilo-wol-per-schaap: de onderzoeker wil voor een bepaalde onderzoeksvariabele X weten wat nu de waarschijnlijkheid is voor de in de onderzoekshypothese opgenomen waarden. Voor een begrip van wat er achter het scherm gebeurt, of de situatie dat je echt alleen met pen en papier en een tabellenboek moet werken, volgt een rekenvoorbeeld.

Rekenvoorbeeld:

Restaurant De Storm biedt een drie-gangen-menu van €45,- aan: drie gangen en een drankje. Uit alle tellingen in het verleden blijkt dat de gemiddelde klant zo’n €50,- besteedt, met een afwijking van zo’n €5,-: of géén wijn bij het eten of juist nog een tweede glas extra. De rekening per persoon varieert dus tussen de 45 en 55 euro.

Soms wordt er naast het standaard keuzemenu nog wat bijbesteld: een extra glas wijn, nóg een koffie, een tweede dessert. Voor een idee van de mogelijke omzet wil de restauranthouder weten hoe waarschijnlijk een willekeurige klant voor een rekening van €57,50 betaalt. Misschien is de prijs voor het menu wel op te voeren? Zijn vraag aan de invalkracht/werkstudent Management & Economie is: Wat is nu de cumulatieve waarschijnlijkheid voor een score van 57,50?

Ingevuld in de formule:

z= (57,50 – 50)/ 5 = 1.5

  • z = de gezochte, gestandaardiseerde score; in dit voorbeeld: 1.5.

  • 57,50 = de gedroomde standaard-omzet per klant.

  • 50 = het bekende gemiddeld bestede bedrag.

Uit het tabellenboek (bijvoorbeeld: Biometrika tables for statisticians/ edited by E.S. Pearson and H.O. Hartley.) volgt bij een waarde van z=1.5 de bijbehorende cumulatieve waarschijnlijkheid F(z) van 0,933 in deze verdeling. In output van een programma wordt dit vaak genoteerd als .933.

Deze uitkomst is de waarschijnlijkheid van het aantreffen van een score van kleiner dan of gelijk aan 57,50. Dus: er is een dikke kans van bijna 94% dat de willekeurige bezoeker voor een rekening tot een bedrag van €57,50 betaalt. Men kan overwegen nu een all inclusive menu voor €57,59 aan te bieden.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?