De Chi-kwadraat toets: wat is het?

Een Chi-kwadraat toets (Chi-square test genoteerd als Griekse letter  χ2) wordt gebruikt om te bepalen of er een significante associatie is tussen twee categorische variabelen.

Dat wil zeggen, of er samenhang is tussen twee variabelen die verwijzen naar een groep, een verschijnsel of soort die wordt aangeduid met een nominale waarde. Dus, niet met een verrekenbaar getal of rangorde. Denk daarbij aan de vraag naar de samenhang tussen soorten koffie en soorten koekjes of tussen soorten pizza en bepaalde toppings. 

Wanneer gebruik je de Chi-kwadraat toets?

De Chi-kwadraat toets wordt vaak gebruikt om statistisch te toetsen of er een verschil is tussen een Expected value en een observed value. Bij deze toets gaat het in het bijzonder om  de verwachte en de waargenomen frequenties van de samenhang tussen bepaalde categorieën.

Een Chi-kwadraat toets berekenen in opeenvolgende stappen

  • Stap 1: nulhypothese en alternatieve hypothese opstellen
    Afhankelijk van je onderzoeksvraag formuleer je de onderzoekshypotheses. Deze klinken in hun meest algemene vorm als:

    H0 (nulhypothese): Er is geen significante associatie tussen de twee variabelen.

    H1 (alternatieve hypothese): Er is een significante associatie tussen de twee variabelen.

  • Stap 2: verzamelen van gegevens
    Verzamel de gegevens over de twee categorische variabelen die je wilt analyseren. Dat kunnen gegevens zijn uit observaties van wat er binnen de onderzoekspopulatie gebeurt of uitslagen van vooraf ingerichte tests bij een steekproef.

  • Stap 3: opstellen van een observatietabel
    Maak een kruistabel (ook wel observatietabel genoemd) waarin de waargenomen frequenties van de verschillende categorieën worden weergegeven. Dit betekent dat je de aantallen of percentages van waarnemingen in elke cel van de tabel plaatst, op basis van de combinaties van categorieën van de twee variabelen.

  • Stap 4: berekenen van de verwachte frequenties
    Bereken de verwachte frequenties voor elke cel van de observatietabel. Ga er daarbij van uit dat er geen samenhang of associatie is tussen de twee variabelen. Dit kun je doen door de totale rijtotalen, kolomtotalen en het totale aantal waarnemingen te gebruiken.

  • Stap 5: berekenen van de Chi-kwadraat statistiek
    Bereken voor elke cel, de bijdrage aan de Chi-kwadraat statistiek. Dat doe je door het verschil tussen de waargenomen en verwachte frequentie te nemen, te kwadrateren en te delen door de verwachte frequentie. Tel alle bijdragen op om de Chi-kwadraat statistiek te berekenen.

  • Stap 6: bepalen van de p-waarde
    Vergelijk de berekende Chi-kwadraat statistiek met de kritieke waarde van de Chi-kwadraatverdeling ofwel de kansberekening voor een bepaalde waarde. Je let daarbij op de juiste mate van vrijheid ofwel de vrijheidsgraden (degrees of freedom). Deze vrijheidsgraden zijn afhankelijk van het aantal categorieën en de grootte van de steekproef.

  • Stap 7: conclusie trekken
    Als de berekende Chi-kwadraat statistiek groter is dan de kritieke waarde, verwerp dan de nulhypothese en concludeer dat er een significante associatie is tussen de variabelen.

    Als de berekende Chi-kwadraat statistiek kleiner is dan de kritieke waarde, accepteer dan de nulhypothese en concludeer dat er geen significante associatie is.

    Als alternatief kun je de p-waarde berekenen, wat de kans is om een Chi-kwadraatwaarde gelijk aan of groter dan de berekende waarde te verkrijgen, gegeven de nulhypothese. Als de p-waarde lager is dan het gekozen significantieniveau (meestal 0,05), verwerp dan de nulhypothese.

Een R²-waarde tussen 0 en 1 kan geïnterpreteerd worden als het percentage van de variantie in de afhankelijke variabele dat verklaard wordt door de onafhankelijke variabelen. Bijvoorbeeld, een R²-waarde van 0,75 betekent dat 75% van de variantie in de afhankelijke variabele verklaard wordt door de onafhankelijke variabelen in het regressiemodel.

Kan je alle data gebruiken voor een Chi-kwadraat toets?

Je kunt niet willekeurig welke data of gegevens gebruiken voor de Chi-kwadraat toets. Voor een geldige Chi-kwadraat toets moeten je data aan de volgende eisen voldoen:

  • De data moeten onafhankelijk zijn en elke observatie moet slechts aan één categorie behoren.

  • De waargenomen frequenties in elke cel van de observatietabel moeten voldoende zijn, meestal wordt aangeraden dat de verwachte frequentie voor elke cel ten minste 5 is.

  • Als er eenheden van tijd zijn, moeten de data een volledige steekproef zijn over een bepaalde tijdsperiode.

Als de bovengenoemde eisen niet worden voldaan, kunnen alternatieve statistische methoden nodig zijn.

Alternatieve statistische methoden

Als je gegevens niet voldoen aan de eisen voor een valide Chi-kwadraat toets, zijn er verschillende alternatieve statistische methoden die je kunt overwegen. Dat is dan weer afhankelijk van de aard van de gegevens en je onderzoeksvraag. Hier lees je een beknopte omschrijving van enkele veelgebruikte alternatieven:

  • Fisher ‘s exacte test
    Deze test wordt gebruikt wanneer de steekproefomvang klein is en de verwachte frequenties in de cellen te laag zijn voor een Chi-kwadraat toets. Deze test berekent de kans op het verkrijgen van de waargenomen verdeling (of een nog extremere verdeling) onder de nulhypothese van onafhankelijkheid.

  • Gepaarde exacte test
    Deze test wordt gebruikt wanneer de gegevens gepaard of gekoppeld zijn, zoals in een voor-na meting of een matched pairs design. Het vergelijkt de waargenomen veranderingen binnen de paren.

  • Log-lineaire modellen
    Als de verwachte frequenties te laag zijn, kan het nuttig zijn om log-lineaire modellen te gebruiken. Deze modellen schatten de associatie tussen de variabelen op basis van logaritmische transformaties van de celverwachtingen.

  • Monte Carlo-simulaties
    Als er geen geschikte exacte of asymptotische test beschikbaar is, kunnen Monte Carlo-simulaties worden gebruikt om de statistische significantie te bepalen. Hierbij wordt de nulhypothese gesimuleerd en vergeleken met de waargenomen gegevens.

  • G-tests
    G-tests (zoals de G-test van onafhankelijkheid) zijn alternatieve statistische tests die gebaseerd zijn op de log-likelihood ratio. Ze worden gebruikt wanneer de verwachte frequenties in de cellen klein zijn. Deze tests zijn robuuster dan de Chi-kwadraat toets in situaties met lage verwachte frequenties.

Bekijk goed van welke aard je gegevens zijn en bedenk goed wat je onderzoeksvraag per se is bij het kiezen van een alternatieve statistische methode. Dat kan heel lastig zijn als je wel goed thuis bent in je eigen vak maar statistische methodes nog een uitdaging zijn. Het raadplegen van een statisticus of een methodoloog kan je helpen bij het bepalen van de meest geschikte methode voor jouw specifieke situatie.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?