Outliers: bizarre uitkomsten opmerken

De beschrijving van een databestand kan sterk worden vertekend door uitzonderlijke scores op de onderzochte variabele. Zo kan er een buitengewoon lage laagste score en een extreem grote grootste score zijn. Het gemiddelde en de standaarddeviatie van de onderzochte populatie geven dan cijfers die extreem afwijken van wat de onderzoeker redelijkerwijs had verwacht. De verwachte mug lijkt wel een olifant, en wat als olifant werd verwacht, lijkt wel een mug.

Opsporen van afwijkingen van verwachte uitkomsten

Wat is er aan de hand? De onderzoeker berekent het gemiddelde (mean) en de standaardafwijking (standard deviation) om de dataset in beschrijvende statistieken samen te vatten. Als voorbeeld noemen we een onderzoek naar het inkomen van Amsterdamse studenten naar leeftijdsgroep. Het betreft een verkenning van de financiële overlevingskansen van studenten. Het gemiddelde inkomen van de 18-jarige studenten (eerstejaars) blijkt uit deze fictieve studie sterk af te wijken van het inkomen van de ouderejaars. Een eerstejaars lijkt ongeveer evenveel te verdienen als een universitair hoofddocent. Feit, fout of fictie?

Op zoek naar de outliers

Als eerste stap wordt een grafische weergave van de dataset gemaakt. In de puntenwolk (scatterplot) blijkt één student een jaarinkomen te hebben opgegeven van één miljoen euro per jaar. Deze ene case stuwt het cijfer van een verwacht gemiddelde van €10.000 per jaar inkomen (uit bijvoorbeeld vakkenvullen, kassa, pizza bakken) extreem omhoog. Dat is als score dan een outlier of uitschieter. Redelijkerwijs verdienen ouderejaars méér omdat zij ouder zijn en beter betaalde bijbanen doen (bijlessen, studentassistentschappen, teamleider hamburgerrestaurants). Vanwege deze éne case die de outlier betreft, schiet het inkomen van de eerstejaars omhoog.

Deze extreme score uit deze case is dan een outlier (uitschieter of uitbijter) die redelijk verklaard is. Door de 1 miljoen per jaar van dat ene geval, gaat het rekenkundig gemiddelde voor deze deelpopulatie om feitelijke redenen omhoog. De betrokken student blijkt na controle van de vragenlijsten inderdaad een toelage van één miljoen te ontvangen. De student behoort als element van de omschreven verzameling tot de definitie van de onderzoeksgroep. Het inkomen is een feitelijk gegeven. Het waarom van het inkomen laten we buiten beschouwing.

Met verstand schrappen van extreme waarden

Nu moet de onderzoeker zich verstandig afvragen of deze ene case wel een valide of representatief element is van de bedoelde onderzoeksgroep. En dus of de extreme score wel meetelt of als uitschieter geschrapt mag worden. Dat vergt zowel interpretatie van de case die het beeld lijkt te verstoren als een kritische blik op de onderzoeksvraag. Wat wordt algemeen bedoeld met ‘student’? Wat is het doel van het onderzoek? Wie is er geholpen met het al dan niet schrappen van deze ene case als ‘oneigenlijke’ vertekening van de data? Gaat het om een 100% zuivere, demografische weergave van de daadwerkelijke studenten? Of gaat het om een indicatief beeld van de inkomens? Is men op zoek naar een beeld van de armoede onder studenten?

De onderzoeker besluit om deze ene uitzonderlijke case te schrappen. Immers, het onderzoek is bedoeld om iets te weten over de financiële overlevingskansen van studenten. Het doel van het onderzoek bepaalt dus mede de verantwoording voor het schrappen van extreme waarden. Dat geldt dus voor bizarre extreme waarden van cases die volgens de definitie van de onderzoeksgroep tot de populatie behoren.

Vuistregels voor het omgaan met outliers

  • Zoek de extreme waarden (hoogste en/of laagste score) in de dataset.

  • Isoleer de uitbijter. Als extreme waarden bizar afwijken van de volgende 5% waarden, isoleer dan de cases die bizar hoog of bizar laag scoren. Kijk naar de scatterplot of sorteer data van laag naar hoog.

  • Check de scores. Check of de uitbijter voortkomt uit waarnemings- of antwoordfouten, of fouten bij data-entry of dataverwerking. Voorbeelden: een kommafout waardoor €10.000,56 opeens €10.000.560 wordt als foute score. Foute beantwoording, zoals geboortejaar ingevuld in plaats van leeftijd; maandinkomen in plaats van jaarinkomen. Of evidente ‘grappige antwoorden’ van de respondent. Bijvoorbeeld, geboorteplaats: Atlantis.

  • Markeer geschrapte outliers als ‘geen gegevens’. Dit zijn dus geen valide scores en deze kunnen gewoon geschrapt worden of gescoord als geen gegevens (no data).

Korte weg naar het schonen van outliers

Wat nu als de dataset één miljoen cases betreft? En wat als de variabele wel onderzocht moet worden maar men niet geïnteresseerd is in een 100% volledige inspectie van elke afzonderlijke case? Dan wordt het heel lastig om alle enquêteformulieren na te lopen en om elke bizarre lage of hoge score met de hand te wegen.

NB: Bij democratische verkiezingen tellen alle stemmen, hoe extreem er ook gestemd mag worden. Bij een medisch onderzoek zal men voorzichtiger zijn met het kortweg schrappen van afwijkende gevallen. Gaat het om algemene klanttevredenheid met bijvoorbeeld een warenhuisketen, dan gaat het om het algemene beeld uit miljoenen respondenten en niet om de vraag wat een afzonderlijke consument denkt. Dan gaat het niet om 100% van alle respondenten, maar een redelijke afspiegeling.

Bij een pragmatische aanpak wordt als volgt te werk gegaan:

  • De hele dataset wordt begrensd door de extreme waarden: de laagste score en de hoogste score op de onderzochte variabele.

  • Het onderzoeksinterval wordt vastgesteld: wil men 90% van de scores en dus de te onderzoeken verdeling van de variabele handhaven? Of 99%? Dit houdt mede verband met het betrouwbaarheidsinterval waarop straks uitspraken gebaseerd moeten worden.

  • De dataset wordt gesnoeid. Van het aangetroffen bereik (range) worden zowel de scores met bijvoorbeeld 5% laagste scores als ook de 5% hoogste scores ‘blind’ geschrapt. Men werkt verder met 90% van de data.

  • De opgeschoonde dataset wordt gebruikt voor de verdere beschrijving van uitkomsten en analyses.

Met het wegwerken van outliers of uitschieters is een van de makkelijkste hindernissen voor een gedegen onderzoek overwonnen. Nu de rest nog.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?