ANOVA uitvoeren - Stappenplan voor een variantieanalyse

Het belang van de ANOVA (variantieanalyse)

In onderzoek gaat het vaak om het verklaren van variantie in de verkregen data. Je hebt wel scores voor de beschrijvende statistiek gevonden, maar waarom variëren scores op een enquête of worden wisselende uitslagen gevonden bij metingen? Reageren Amsterdammers op bepaald nieuws heel anders dan Hagenaars of Rotterdammers? Hoe kijken Utrechters daar naar? Uit elke stad kan een andere blik op hetzelfde nieuws komen. Of er zit juist helemaal geen variatie in de antwoorden.

In de verklaring van de variantie zit het antwoord voor een onderzoeksvraag. Als je weet hoe data variëren, kun je onderzoeken waarom deze data variëren. Eerst wil je dan weten of de onderzoeksgroepen vanwege hun varianties significant verschillen. Dan is het tijd voor een variantieanalyse, een analysis of variance: afgekort met ANOVA.

Voor het onderzoeken van de variantie in één afhankelijke variabele voor één of twee onafhankelijke variabelen, maak je gebruik van de variantieanalyse (ANOVA). NB: als je zoekt naar de variantie van meerdere afhankelijke variabelen voor meerdere onafhankelijk variabelen, gebruik je de Multiple Analysis of Variance (MANOVA). In dit artikel blijven we bij ANOVA.

Afhankelijk van de onderzoeksvraag gebruik je:

Eenzijdige variantieanalyse (one-way ANOVA)
Tweezijdige variantieanalyse (two-way ANOVA)

Eenzijdige variantieanalyse

Bij de eenzijdige variantieanalyse (one way analysis of variance) zoek je naar het verband tussen één variabele met één kenmerk van de populatie. Daarmee heb je in wiskundige termen de relatie beschreven tussen f(x) = y, waarbij je de x in een experiment kunt manipuleren of als steekproefselectie hanteert. Je bent benieuwd naar de y-waarden en dus de variantie die je in de y-waarden wilt verklaren. Je wilt bijvoorbeeld weten of een bepaalde functie bij een bedrijf iets zegt over arbeidstevredenheid.

Tweezijdige variantieanalyse

Bij een tweezijdige variantieanalyse (two way analysis of variance) zijn er twee onderzoeksvariabelen die je in verband wilt brengen met één kenmerk van de populatie. Je wilt bijvoorbeeld weten of zowel een bepaalde functie bij een bedrijf als de opleiding van de medewerkers iets zegt over arbeidstevredenheid.

Voorbeeld van hoe een ANOVA wordt ingevuld

Hieronder volgt een voorbeeld van de variantieanalyse. Als kennismaking kijken we naar een eenzijdige variantieanalyse waarbij één groepskenmerk – dus één onafhankelijke variabele – wordt vergeleken met één te onderzoeken afhankelijke variabele.

Voorbeeld one-way ANOVA

Voor ons voorbeeld gaan we uit van een vakantieresort dat overweegt een all inclusive arrangement in de markt te zetten. De manager wil weten of de hoogte van de barrekening afhangt van de herkomst van de bezoekers. Als iedereen ongeveer evenveel betaalt, kan een uniform arrangement worden uitgewerkt. Als herkomst echter leidt tot een sterk variabel bargebruik, kan het resort flink toeleggen op forse doordrinkers. De gemanipuleerde variabele is dus het paspoort of de herkomst van de bezoekers, en de afhankelijke variabele is het drankgebruik.

De volgende cijfers zijn gebaseerd op de aannames die een ANOVA mogelijk maken:

Het gaat om onafhankelijke steekproeven van normaalverdeelde populaties met een overeenkomstige variantie. De onderzoeker is alleen in deze set subgroepen geïnteresseerd. Dit is dus niet weer een steekproef of deelpopulatie van een nog grotere populatie, maar een afspiegeling van alle relevante vakantiegangers. Dit heet technisch het fixed-effects model. Observaties zijn te registreren in reële getallen waarmee dus gerekend kan worden.

Voor het onderzoek wordt aan de hand van de barrekening van de verschillende groepen geregistreerd wat het drankgebruik in dollars per avond is. De onderzoeker verzamelt en bewerkt de volgende gegevens:

NB: In plaats van een omschrijving van nationaliteit of etniciteit, hanteren de onderzoekers een neutraal label: A t/m E.

Stappen in de variantieanalyse

1. Within groups sum of squares

Van elke groep wordt bekeken of binnen de groepen zelf grotere verschillen bestaan in drankgebruik. Anders wordt een vergelijking tussen groepen wat lastig.

Je maakt dan de maat voor variabiliteit binnen groepen, within groups sum of squares.

Deze wordt berekend volgens de volgende formule:

SSW = k∑_i=1(N1 – 1) S_i²

De term k∑i wordt uitgesproken als summatie van k over i, ofwel een optelling van k voor elk van de groepen.

Daarin is:

k= aantal geobserveerde groepen
Si² = de variantie van groep i rond het eigen gemiddelde
N = aantal elementen in groep 1

Ingevuld in de formule uit de tabel wordt dit:

SSW= 25,56²(118) + 24,19²(83) +21,63²(40) +26,75²(73) +21,56²(89) = 237.986,20.

2. Between groups sum of squares

De variabiliteit van de gemiddelden per groep wordt gemeten door de between groups sum of squares. Dit volgt de formule: SSB = k∑_i=1(M_1-M)²

Het gemiddelde van de groep i wordt genoteerd als M_i

Voor deze studie wordt de between-groups sum of squares:

SSB = (24,25-20,84)²(119) + (24.31-20,84)²(84) +(9,25-20,84)²(41) +(16,56-20,84)²(74) +21,88-20,84)²(90) = 9.353,89

De variantieanalyse komt er nu zo uit te zien:

De mean squares in deze tabel zijn verkregen door de som van kwadraten te delen door het aantal vrijheidsgraden (degrees of freedom, afgekort als D.F.). De tussen-groepen vrijheidsgraden zijn k-1, waarbij k het aantal groepen betreft. De binnen-groepen vrijheidsgraden zijn N-k. Daarbij is N het totale aantal cases of elementen in de hele onderzoeksgroep.

Testen van de hypothese

Nu wil de onderzoeker de hypothese testen, om te zien welke variabiliteit te verklaren is door variaties in de groepen. De nulhypothese is dat de vijf bezoekersgroepen in deze studie ongeveer evenveel uitgeven aan de bar. De alternatieve hypothese is dat de groepen juist sterk verschillen in de betaalde rekeningen. Technisch vraagt de onderzoeker zich dus af of de volgende vergelijking opgaat:

Dus: µ_A= µ_B= µ_C= µ_D= µ_E

Om deze hypothese te testen, wordt de volgende statistiek berekend:

Conclusie

Het aangehouden significantieniveau is de kans op het verkrijgen van een waarde voor F die minstens zo groot is als de waarde voor F die opgaat als alle populatiegemiddelden gelijk zijn. Als deze kans klein genoeg is, zal de hypothese dat alle populatiegemiddelden gelijk zijn, worden verworpen. In dit onderzoek is het gevonden significantieniveau ongeveer 0,0036.

Daardoor lijkt het onwaarschijnlijk dat de bezoekers uit de vijf verschillende bezoekersgroepen hetzelfde gemiddelde bargebruik hebben. Het is waarschijnlijker dat er veel variabiliteit zit in het barbezoek van de vijf verschillende bezoekersgroepen. Een all inclusive aanbod met open bar lijkt dus iets om nog eens over na te denken. Een significante F-statistiek geeft echter alleen aan dat de populatiegemiddelden waarschijnlijk niet gelijk zijn aan elkaar. Het zegt niet waar de verschillen in zitten. Daar zijn weer andere technieken voor.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota

Motto: Beter weten door zuiver meten

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt.

ANOVA uitvoeren – Stappenplan voor een variantieanalyse