- Scriptium
- Posted on
- Geen reacties
Wat is een boxplot?
Een boxplot, ook wel bekend als een doosdiagram, is een grafische weergave van de verdeling van een dataset. Het toont statistische informatie, zoals de mediaan, kwartielen en eventuele uitbijters. Een boxplot geeft een plaatje als samenvatting van statistische beschrijvende kenmerken van je dataset. Dat zijn dan de spreiding en centrale tendens van de gegevens. Als onderdeel van je onderzoeksverslag biedt de boxplot in de grafiek of in het bijschrift ook een beknopt overzicht in cijfers van de verdeling en centrale tendens van de gegevens. Daardoor kan je snel inzicht krijgen in mogelijke verschillen of patronen tussen groepen of verschijnselen.
Wat zijn de onderdelen van de boxplot?
De mediaan, kwartielen, uitbijters, spreidingsmaten en maten van centrale tendens zijn statistische begrippen die je gebruikt om je onderzoeksgegevens te beschrijven en te analyseren. Hier is een uitleg van deze termen:
-
Mediaan. De mediaan is het middelste getal in een gesorteerde reeks gegevens. Het verdeelt de gegevens in twee gelijke delen, waarbij de ene helft van de gegevens hoger is dan de mediaan en de andere helft lager. Als er een even aantal gegevenspunten is, wordt de mediaan berekend als het gemiddelde van de twee middelste waarden.
-
Kwartielen. Kwartielen zijn waarden die de gegevens in vier gelijke delen verdelen. Het eerste kwartiel (Q1) is de mediaan van de onderste helft van de gegevens, het tweede kwartiel is de mediaan zelf (ook wel het 50e percentiel genoemd) en het derde kwartiel (Q3) is de mediaan van de bovenste helft van de gegevens.
-
Uitbijters. Uitbijters zijn waarden die sterk afwijken van de rest van de gegevens. Ze kunnen significant hoger of lager zijn dan de andere waarnemingen en hebben de potentie om de resultaten van een analyse te beïnvloeden. Uitbijters worden vaak geïdentificeerd met behulp van statistische criteria, zoals het berekenen van de interkwartielafstand (IQR) en het toepassen van een uitbijtergrens (bijvoorbeeld, waarnemingen die buiten 1,5 keer de IQR vallen, worden beschouwd als uitbijters).
-
Spreidingsmaten. Spreidingsmaten geven aan hoe de gegevens verspreid zijn rondom een centrale waarde. De meest gebruikte spreidingsmaat is de standaarddeviatie, die de gemiddelde afwijking van de gegevenspunten ten opzichte van het gemiddelde meet. Andere spreidingsmaten zijn de variantie, het bereik (het verschil tussen het grootste en het kleinste gegevenspunt) en de interkwartielafstand (IQR) die het bereik tussen het eerste en derde kwartiel meet.
-
Maten van centrale tendens. Maten van centrale tendens geven een typische of representatieve waarde weer die de gegevens samenvat. De meest gebruikte maat van centrale tendens is het gemiddelde, dat de som van alle waarnemingen deelt door het aantal waarnemingen. Andere maten van centrale tendens zijn de mediaan (zoals eerder besproken) en de modus, die het meest voorkomende gegevenspunt aangeeft.
Hoe maak je een boxplot?
Om een boxplot te maken en de belangrijkste kenmerken van de gegevens visueel weer te geven, volg je de volgende stappen:
Stap 1: Sorteer de gegevens in oplopende volgorde.
Stap 2: Bereken de mediaan (Q2), het eerste kwartiel (Q1) en het derde kwartiel (Q3).
Stap 3: Bereken de interkwartielafstand (IQR) door het verschil tussen het derde en eerste kwartiel te nemen: IQR = Q3 – Q1.
Stap 4: Bepaal de uitbijtergrens: 1,5 keer de IQR boven Q3 en 1,5 keer de IQR onder Q1.
Stap 5: Identificeer eventuele uitbijters die buiten de uitbijtergrenzen vallen.
Stap 6: Teken een rechthoek (box) tussen Q1 en Q3, met een lijn in het midden die de mediaan (Q2) vertegenwoordigt.
Stap 7: Teken lijnen (whiskers) vanaf de bovenste en onderste zijde van de box naar de hoogste en laagste waarnemingen binnen de uitbijtergrenzen.
Stap 8: Markeer eventuele uitbijters buiten de whiskers.
Stap 9: Optioneel: voeg een titel, assenlabels en andere grafische elementen toe voor duidelijkheid en presentatie.
Door het volgen van deze stappen kun je een boxplot maken om een beknopt overzicht te geven van de verdeling, centrale tendens, spreiding en mogelijke uitbijters van je gegevens. Als je de beschikking hebt over een statistisch pakket als SPSS kan je dat veel werk besparen.
Een praktijkvoorbeeld uit de psychologie
Leiden voedingsgewoonten tot een afwijkende body mass index (BMI)? Je bent bijvoorbeeld geïnteresseerd in het vergelijken van de scores van twee groepen deelnemers op een psychologische test die psychologische oorzaken (voedingsgewoonten) van een eetstoornis meet. Je hebt gegevens over voedingsgewoonten verzameld van een groep deelnemers met een sterk afwijkende Body Mass Index (BMI) en van een groep deelnemers met een normale BMI. Om de verschillen tussen de groepen visueel te presenteren, kan je een boxplot maken.
De boxplot toont per groep een rechthoekige doos, waarbij de onderste en bovenste rand van de doos respectievelijk het eerste en derde kwartiel van de gegevens vertegenwoordigen. Een lijn in de doos geeft de mediaan weer. Indien aanwezig, kunnen uitbijters (extreme waarden) als individuele punten buiten de doos worden weergegeven.
De boxplot kan helpen bij het ontdekken van mogelijke verschillen in voedingsgewoontes en aanleg tot een eetstoornis tussen de twee groepen. Bijvoorbeeld, als de mediaan van de afwijkende BMI-groep hoger is dan die van de normale BMI-groep, kan dit wijzen op een hoger gemiddeld eetprobleem bij de deelnemers met een afwijkende BMI.
Een praktijkvoorbeeld uit de letterkunde
Zijn Franse boeken dikker dan Engelse romans? Je bent bijvoorbeeld geïnteresseerd in het vergelijken van de lengtes van zinnen van een vertaalde roman in twee verschillende talen. Dat doe je om inzicht te krijgen in de invloed van taal op zinslengte.
De onderzoeksvraag is: Wordt de roman "De donkere kamer van Damokles" van W.F. Hermans in vertaling in het Frans dikker dan in het Engels?
Als bron gebruik je twee gerenommeerde vertalingen: (Engelse titel: "The Darkroom of Damocles"; Franse titel: "La chambre noire de Damoclès"). In een pakket als ATLAS.ti kan je het aantal woorden of de lengtes van zinnen in beide vertalingen tot één dataset verwerken. Je kunt dan het aantal woorden of de lengtes van zinnen in beide vertalingen analyseren. Van deze gegevens kan je dan een boxplot maken om de verschillen in zinslengte visueel te presenteren.
De boxplot toont per vertaling een rechthoekige doos, waarbij de onderste en bovenste rand van de doos de eerste en derde kwartielen van de zinslengtes vertegenwoordigen. De mediaan wordt aangegeven door een lijn in de doos. Eventuele uitbijters, zoals extreem lange of korte zinnen, kunnen als individuele punten buiten de doos worden weergegeven.
De boxplot kan helpen bij het vergelijken van de verdeling van zinslengtes tussen de twee vertalingen. Bijvoorbeeld, als de doos van het ene vertaalde werk hoger is geplaatst dan die van het in een andere taal geschreven werk, kan dit aangeven dat de zinnen in dat ene werk over het algemeen langer zijn.
Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in
Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.
De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.