Wanneer gebruik je de Mann Whitney U test?

Stel dat je voor het toetsen van een verschil tussen twee deelpopulaties of onderzoeksgroepen geen gebruik kunt maken van een gemiddelde of standaarddeviatie, ofwel de parameters van de deelpopulaties.

Voor een statistische test van een hypothese heb je nodig:

  • Een nulhypothese

  • Een alternatieve hypothese

  • Een test-statistiek

  • Een verwerpingsgebied

Veel statistische tests zijn gebaseerd op de (on)waarschijnlijkheid dat twee steekproefgemiddelden of twee steekproefvarianties van twee te vergelijken steekproeven of deelpopulaties gelijk zijn óf toch verschillen.

De nulhypothese (H0) en de alternatieve hypothese (H1) noteer je dan als:

H0: µ12       en        H1: µ1≠µ2       Of        H0: σ1= σ2      en        H1: σ1≠ σ2

Veel statistische tests richten zich dus op de waarschijnlijkheid van een overeenkomst in de waarden voor het gemiddelde of de standaarddeviatie van twee of meer deelpopulaties. In tabellenboeken zijn de waarschijnlijkheden uitgerekend voor deze soorten statistische tests. Het principe achter statistische tests is altijd onderzoeken of iets een aan zekerheid grenzende waarschijnlijkheid heeft of louter toeval is. Dat geldt voor tests die al zijn gebaseerd op een gemiddelde of standaarddeviatie. Dat geldt ook voor tests die géén gebruik maken van een parameter. Dat zijn zogenaamde non-parametrische tests. Bekende non-parametrische tests zijn:

  • De tekentoets of sign test voor het vergelijken van twee populatie-distributies.

  • De Mann-Whitney U test voor het vergelijken van twee populatie-distributies.

  • De Wilcoxon Rang-som (rank-sum) test voor gepaarde experimenten.

  • De Kruskal-Wallis H test voor de vergelijking van twee populaties.

In dit artikel zie je hoe de Mann Whitney U test voor het vergelijken van twee populatiedistributies werkt.

Het principe van de Mann Whitney U test

Wat is de tekentoets?

Bij de tekentoets of sign test kijk je naar paarsgewijs geselecteerde paren uit twee verschillende deelpopulaties. Je hebt je onderzoeksgroep dan precies ingedeeld in één groep A die wél een bepaald kenmerk heeft gekregen en één groep B die dat kenmerk níet heeft. De observaties gaan dan steeds over één lid van A en het bijbehorende lid van groep B. Denk bijvoorbeeld aan een medische behandeling voor groep A en een fopmiddel (placebo) voor groep B. Dan wordt door vergelijking van A en B gekeken of er verschil is tussen het wel/niet gebruiken van het medicijn.

Of het gaat om een kenmerk van de leden van de deelpopulaties. Dat is bijvoorbeeld het onderscheid tussen kinderen die wel of geen bril dragen. Je zoekt bijvoorbeeld de overeenkomst of het verschil in muzikaliteit tussen wel/niet brildragers. Daarbij laat je dan elk paar kinderen uit groep A en B naar een muziekstuk luisteren. Daarna vraag je elk kind hoeveel verschillende muziekinstrumenten het kind in het orkest heeft horen spelen. Bij voldoende verschil tussen de verdeling van scores in populatie van A en de verdeling van scores in de populatie van B, blijkt er dus een verschil in muzikaliteit tussen wel/geen brildragers.

Voor de tekentest moet je wel steeds precies evenveel kinderen en precies bij elkaar gezochte paren individuen hebben. Dat lukt niet altijd. Vaak heb je te maken met losse deelpopulaties die je niet paarsgewijs kunt sorteren voor je onderzoek.

Mann Whitney U test als alternatief voor de tekentoets

Een veelgebruikt alternatief voor de tekentoets is de Mann Whitney U test. De waarde voor deze teststatistiek wordt genoteerd met de waarde U. De Mann Whitney U test ontwijkt het probleem van geselecteerde, paarsgewijze observaties bij een tekentoets. Dat gaat door te werken met scores op hetzelfde kenmerk voor twee deelpopulaties of steekproefgroepen A en B. Deze zijn niet per se in gepaarde observaties geobserveerd.

Deze Mann Whitney U test gaat, net als de tekentoets, uit van twee willekeurig (random) geselecteerde deelgroepen die op één kenmerk verschillen. Het maakt niet uit of scores op het onderzoekskenmerk normaal verdeeld zijn of niet. De scores moeten wel reële, continue getalen zijn. De leden van de groepen zijn verder identiek aan elkaar. Dat ene bijzondere kenmerk is dus wat je aan het onderzoeken bent.

Voor de waarde van de teststatistiek U worden alle gevonden observatiescores (n1+n2) gerangschikt naar hun grootheid. Dan worden de aantallen observaties in groep A geteld die met hun score op de getallenlijn voorafgaan aan elke observatie in groep B. De U statistiek is dan de som van al deze optellingen. Voorbeeld: een hoogleraar wil weten of zijn team van 8 docenten hun vakliteratuur bijhouden. Daarbij wil hij weten of er verschil is in het leesgedrag tussen de mannelijke docenten (groep A) en de vrouwelijke docenten (groep B). De bibliotheek gaat na hoeveel wetenschappelijke artikelen de docenten dit jaar online hebben gelezen. Er worden in totaal acht observaties gedaan van leden uit steekproef A en steekproef B op hetzelfde kenmerk. Deze scores voor observaties zijn in de volgende tabel samengevat:

Mann Whitney U test tabel 1
Tabel 1: scores voor leden groep A en leden groep B.

De kleinste observatie voor B is 28. Dat zijn er dus u1 = 3 observaties van A die komen vóór de eerste B komt. Voor u2 vind je dan dat er 3 observaties zijn van A voorafgaand aan de tweede observatie van B. En u3 = 4 en u4 = 4 observaties van A komen vóór de derde en de vierde observatie van B. Dat zijn dan de waarden B = 32 en B = 35. Je vindt dan de U-waarde door de waarden van u1,2,3,4,n op te tellen:   

U = u1 + u2 + u3 + u4 = 14

Nu wil je weten of deze ordening louter toeval is, of dat de rangordening voor groep A achterblijft bij groep B op het onderzoekskenmerk. En dus of de verdeling van scores significant afwijkt.

De kansberekening achter deze test is als volgt:

Het aantal mogelijke, willekeurige sorteringen kun je met kansberekening uitrekenen. De theoretische onderbouwing vind je bij de kansberekening zoals de hypergeometrische verdeling. Dat is voor deze test:            

(N1+N2)

    N1

In woorden uitgeschreven: de som van N1 plus N2 over N1. Dan is de formule voor de verwachte waarde (Expected value): E(U) = (N1+N2)/N1

Rekenvoorbeeld Mann Whitney U test

In het volgende voorbeeld worden de principes en de theoretische achtergrond, maar ook de berekeningswijze in een praktijkvoorbeeld uitgewerkt.

Stap 1 - De vraagstelling

Je bent gevraagd door een uitgeverij van romans om te onderzoeken of er een verschil is tussen verkoopsucces van Belgische en Nederlandse schrijvers. Het gaat om debutanten: schrijvers van wie een eerste boek wordt uitgegeven in zowel Nederland als België. Zij schrijven allemaal in het Nederlands. Het te onderzoeken kenmerk is dus of het een Belgische of Nederlandse schrijver is. De test gaat om een verschil in de verdeling van de verkoopscores in de deelpopulaties Belgische en Nederlandse schrijvers.

Stap 2 - De metingen

Voor het onderzoek wordt zowel bij een grote boekwinkelketen in België als in Nederland gekeken hoeveel exemplaren per dag in de eerste week na publicatie worden verkocht. Het gaat om een steekproef van n1 = 9 en n2 = 9 debutanten. De te vergelijken groepen bestaan dus uit 9 Nederlandse en 9 Belgische debutanten.

Voor de berekening van de teststatistiek U gebruik je een shortcut: een kortere berekeningswijze. Theoretisch snijd je een omweg af door de volgende formule:

U = n1n2+ {(n1(n1+1))/2}-TA

U = n1n2+ {(n2(n2+1))/2}-TB

Geef de volgorde van alle setjes n1 + n2. Geef daarna de laagste observatiewaarde de rangvolgorde nummer 1, de tweede kleinste rang 2, en zo door. Tot je alle setjes hebt gehad. Dan is TA de som van de rangen voor de metingen in steekpoef A. De waarde TB is de corresponderende som van de rangen voor steekproef B.

Het wiskundige bewijs laten we even voor wat het is.

Stap 3 - Verwerken van de metingen tot analyseerbaar resultaat

In de volgende tabel staan de verkoopcijfers voor de Nederlandse en Belgische debutanten in één bepaalde periode van dit onderzoek. Lijkt het er volgends de tabel op dat de Belgische debutanten (Groep A) over het algemeen verschillen in verkoopcijfers van de Nederlandse debutanten (Groep B)?

Mann Whitney U test tabel 2
Tabel 2

Stap 4 - De statistische analyse

De tabel laat verkoopcijfers zien voor groep A en voor groep B. Over de hele onderzoeksgroep (dus, zowel A als B) is een rangvolgorde van laag naar hoog geregistreerd. Daarna is per groep A en per groep B voor elke groep apart de waarde van de rangnummers opgeteld. Dat zijn dan de waarden TA en TB. De observaties zijn niet in afzonderlijke paren geregistreerd. Je ziet wel al snel dat elke observatie voor A uitstijgt boven de corresponderende meting voor B. Is deze ordening van observaties voor A louter toeval?

Voor de rangvolgorde die hoort bij elke observatie (tussen haakjes in de tabel opgenomen) en voor n1 = n2 = 9, vind je dan bij gebruik van de formule:

U = n1*n2+ (n1(n1+1)2-TA =

U = (9)(9)+ (9*10)/2-126 = 0

Je raadpleegt een tabel voor kansverdelingen voor de verdeling van de waarde U. Voor een tweezijdige statistische test met α = 0,01 wordt het verwerpingsgebied volgens de tabel bepaald door de waarden voor U <  12. De grenswaarde is hier volgens de kansberekening, de P-waarde: P(U< 12) = 0,0053

Stap 5 - Verwerpen of handhaven van de nulhypothese

De gevonden waarde van U = 0 valt samen met de gevonden uitkomsten in het verwerpingsgebied. De rangordening is dus niet louter toeval. Het blijkt dus dat er een significant verschil is tussen de verdeling van scores in populatie A en in populatie B. Met andere woorden: het verkoopsucces van de twee groepen debutanten uit Nederland en uit België verschilt.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

2 reacties

  1. Interessante en heldere uitleg. Ben verder heel benieuwd naar de effectgrootte bij de Mann-Whitney U test (r=|z|/sqrt(n)) en een tabel van effectgroottes: wanneer zou je een effect klein, matig of sterk noemen?

  2. hallo Ewald,
     
    De effectgrootte bij de Mann-Whitney U-test wordt berekend met de formule r = |z| / √n. Daarbij is r de effectgrootte, z de Z-score die wordt verkregen uit de teststatistiek van de U-test, en n het totale aantal waarnemingen in de steekproeven.
     
    Om de effectgrootte te interpreteren, kunnen de volgende richtlijnen worden gebruikt:

    • Kleine effectgrootte: r ≈ 0,1
    • Matige effectgrootte: r ≈ 0,3
    • Sterke effectgrootte: r ≈ 0,5 of groter

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?