Bepalen van het bereik in het kort

In het kort komt de bepaling van het bereik (de range) van een dataset of het onderzochte kenmerk van een populatie neer op:

  • 1: Het opsporen van de laagste score in de dataset.

  • 2: Het opsporen van de hoogste score in dezelfde dataset.

  • 3: Het verschil van hoogste minus laagste score is het bereik of range (R) van de dataset.

Het belang van het bepalen van het bereik

Het bereik van een verzameling gegevens (dataset) betreft het geheel van laagste tot hoogste waarden die uit het onderzoek volgen. Ofwel, alle elementen in de onderzochte verzameling die redelijkerwijs stroken met de definitie van de populatie en het kenmerk dat wordt onderzocht. Het bereik wordt veelal aangeduid met de letter R (range). Waarden die dus buiten het blikveld (scope) van het onderzoek vallen, vallen dus buiten het bereik. Na de meetfase van het onderzoek begint een beschrijving van de gevonden uitkomsten of volgen de statistische analyses voor het toetsen van resultaten of het schatten van volgende uitkomsten. Een orde van grootte is dan informatief over de aangetroffen dataset.

Uitkomsten uit metingen kunnen de labels of scores zijn uit observaties, antwoorden op enquêtevragen of proefnemingen. Voor een beter begrip van hoe de labels of scores concreet zijn uitgewerkt, wordt uitgegaan van het meetniveau van de data. Immers, het meetniveau van de data bepaalt welke logische en rekenkundige bewerkingen mogelijk zijn. Daarmee is ook gegeven of er getalsmatige uitersten zijn aan te geven of dat er alleen benoembare elementen zijn met een nominale waarde.

Betreft de dataset numerieke of alfanumerieke gegevens?

Voor nominale data wordt bekeken onder welke rubriek de gevonden uitkomsten gegroepeerd worden. Zo kunnen Bush en Trump worden gerubriceerd onder Republican en Obama en Biden onder Democrats. Een getalsmatige omschrijving van het bereik is vanwege de aard van nominale data niet doenlijk.

Voor numerieke data wordt bekeken welke getalsmatige score aan een observatie toegekend kan worden. Dan worden glazen bier geteld van 1 tot en met 70. In de leeftijden valt op dat er al een student is van 17 jaar, maar dat de hoogste leeftijd onder studenten 85 jaar is. Of dat wel klopt is een kwestie van aandacht voor outliers: uitschieters of uitbijters.

In beide gevallen wordt gezocht naar het verband tussen een manipuleerbare, onafhankelijke variabele en het bijbehorende element of het gevolg van die variabele. Dat is dan de afhankelijke variabele. Er wordt dus gekeken naar een verband of oorzaak-gevolgrelatie tussen één kenmerk en het daarmee verbonden andere kenmerk.

Soort score Domein Bereik
Alfanumerieke score: namen
Presidenten van de USA na het jaar 2000
Bush
Obama
Trump
Biden
Numerieke score: cijfers, getallen
Glazen bier per week (afhankelijke variabele)
1
2
...
70
Leeftijd student (onafhankelijke variabele)
17
18
...
85

Voorbeeld onafhankelijke en afhankelijke variabele

  • Presidenten van de USA na het jaar 2000: van welke partij komen de presidenten?

  • Bepaalt leeftijd student het aantal glazen bier per week? Hoe ouder hoe grotere drinker?

Net als in een wiskundige functie f(x)= y kent dus elke waarde op de onafhankelijke variabele A (x) één waarde toe aan de afhankelijke variabele B (y). Daarom kunnen we met de waarden van A ook rekenen in aantallen B. Ofwel, de functie voort f(x) = y invullen.

Benaderen en bereken van het bereik

Aan de hand van een voorbeeld beschrijven we de benadering of berekening van het bereik. In een fictief onderzoek wordt een verband gelegd tussen de leeftijd van studenten en het aantal glazen bier dat per week wordt verbruikt. Aan elke leeftijd wordt na uitvraag onder een populatie studenten een getal toegekend aan het aantal glazen. De onderzoeker varieert bewust in de leeftijden om te vinden welk aantal glazen bier hoort bij welke leeftijd. De nulhypothese kan zijn dat er géén verband is tussen de leeftijd en het aantal glazen bier. De alternatieve hypothese kan zijn dat er wel een verband bestaat tussen leeftijd en gebruik van glazen bier.

Het bereik voor de dataset GLAZEN BIER wordt dus bepaald door de ruimte tussen het laagste aantal glazen bier tot en met het hoogste aantal glazen bier per week.

Uit de enquête volgt dat elke student wel één biertje per week drinkt. Er is zelfs één student van 17 jaar die nog wel eens een biertje lust. Dan volgt een aantal studenten dat meer of behoorlijk meer bier nuttigt. Als uiterste waarde blijkt dat één of een aantal studenten wel 70 biertjes in een week nuttigt.

Extreme waarden zijn dus:

Laagste aantal glazen bier = 1.

Hoogste aantal glazen bier = 70.

Het bereik of de range is dan: R= 70-1=69.

Wat is nu het bereik?

Er is dus een speling of ruimte van 69 tussen de laagste en de hoogste waarde. Het bereik voor deze dataset of deze verzameling observaties is dus 69 glazen bier per week. Naast de spreidingsmaten en de centrummaten, zegt het bereik ook iets over de dataset: de breedte of diepte is alvast bekend.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?