Hoe werkt de Kolmogorov-Smirnov test?

De Kolmogorov-Smirnov-test is een statistische methode die wordt gebruikt om:

  • te beoordelen of een dataset overeenkomt met een bepaalde kansverdeling of,

  • te vergelijken of twee datasets uit dezelfde verdeling komen.

De test meet de gelijkenis tussen de empirische cumulatieve verdelingsfunctie (ECDF) van de dataset en de theoretische cumulatieve verdelingsfunctie (CDF) die wordt aangenomen voor de vergelijking. Dat wil zeggen, de gelijkenis tussen:

  • de uitkomsten uit een verzameling feitelijk observaties of metingen in de praktijk en

  • wat volgens de theorie aan uitkomsten meer of minder waarschijnlijk is.

De test vergelijkt de grootste verticale afstand tussen de ECDF van de steekproef en de CDF van de theoretische verdeling. De Kolmogorov-Smirnov-statistiek die je dan hebt gevonden, wordt vervolgens vergeleken met kritieke waarden uit de Kolmogorov-Smirnov-tabel om te bepalen of de dataset afkomstig is uit de aangenomen verdeling.

Noot: De Kolmogorov-Smirnov-tabel, ook wel bekend als de KS-tabel, wordt gebruikt om kritieke waarden te vinden voor de Kolmogorov-Smirnov-test. Deze tabel wordt gebruikt om de kritieke waarde te bepalen op basis van de steekproefgrootte en het gekozen significantieniveau. Er is niet één specifieke formule om de waarden in de Kolmogorov-Smirnov-tabel te berekenen. Deze waarden zijn eerder empirisch bepaald en verwerkt in statistische tabellen die je in een goed statistiekboek kan vinden. De waarden in de tabel zijn afhankelijk van:

Het Kolmogorov-Smirnov -testresultaat wordt vergeleken met de kritieke waarde in deze tabel om te bepalen of de steekproef uit de aangenomen verdeling komt.

Je kunt in plaats van de tabel ook software gebruiken om de Kolmogorov-Smirnov-test uit te voeren. Statistische software zoals SPSS, R, Python met SciPy, en andere tools kunnen de test uitvoeren en direct de p-waarde geven zonder dat je handmatig kritieke waarden uit de tabel hoeft op te zoeken.

Dit type test wordt veel gebruikt om te bepalen:

  • Of een dataset normaal verdeeld is

  • Of om te vergelijken of twee datasets verschillen in verdeling.

Voor welke wetenschapsgebieden gebruik je de Kolmogorov-Smirnov test?

Het kan in verschillende velden worden toegepast, zoals in de sociale wetenschappen, biologie, financiën en meer. Bijvoorbeeld, in de financiële wereld kan het helpen bij het bepalen of rendementen op investeringen normaal verdeeld zijn. In de medische wetenschap kan het worden gebruikt om te testen of een bepaalde set metingen overeenkomt met een verwachte norm.

Noot: er zijn beperkingen aan de Kolmogorov-Smirnov-test. Dat geldt vooral als je met kleine steekproefgroottes werkt of wanneer er sprake is van veel uitbijters.

Hoe gebruik je SPSS voor Kolmogorov-Smirnov test?

van wat je precies wilt bereiken. Over het algemeen kun je de Kolmogorov-Smirnov-test gebruiken om te controleren of een steekproef afkomstig is uit een specifieke verdeling, zoals een normale verdeling.

Om de Kolmogorov-Smirnov-test in SPSS uit te voeren, volg je deze stappen:

Stap 1: Gegevens invoeren

Importeer of voer je gegevens in in SPSS.

Stap 2: Navigeer naar de Analyze-menuoptie

Ga naar ‘Analyze’ in de bovenste werkbalk.

Stap 3: Selecteer 'Nonparametric Tests'

Kies vervolgens ‘Legacy Dialogs’ (dit kan variëren afhankelijk van de SPSS-versie) en selecteer ‘Nonparametric Tests’.

Stap 4: Kies 'One-Sample KS' of 'Two-Independent Samples KS'

  • Als je een enkele steekproef wilt testen ten opzichte van een theoretische verdeling, kies dan 'One-Sample KS'.

  • Als je twee steekproeven met elkaar wilt vergelijken, selecteer dan 'Two-Independent Samples KS'.

Stap 5: Selecteer variabelen

Wijs de variabelen aan die je wilt testen.

Stap 6: Definieer de theoretische verdeling (indien van toepassing)

Als je een enkele steekproef test (stap 4), moet je de verwachte verdeling specificeren. Voor een normaalheidstest zou je bijvoorbeeld de normale verdeling kiezen.

Stap 7: Voer de analyse uit

Klik op ‘OK’ of ‘Run’ om de Kolmogorov-Smirnov-test uit te voeren.

Stap 8: Interpreteer de resultaten

SPSS zal de Kolmogorov-Smirnov-statistiek en bijbehorende p-waarde uitschrijven. Met deze p-waarde beoordeel jij de mate van overeenkomst tussen de empirische en theoretische verdelingen. Een lage p-waarde wijst op een significante afwijking van de aangenomen verdeling.

Noot: Zorg ervoor dat je de aannames voor je analyse begrijpt en je op basis van je onderzoeksvraag de juiste variant van de Kolmogorov-Smirnov-test kiest. Verwar dus geen appels met peren. Voor nauwkeurige interpretatie is kennis van statistische concepten noodzakelijk. Het gaat hier dan vooral om: steekproefgrootte, aannames over de verdeling en relevantie van de test voor je specifieke onderzoek. Raadpleeg bij belangrijk onderzoek een statisticus of een methodoloog voordat jij je hele onderzoek weer over kan doen.

Gevoeligheid van de Kolmogorov-Smirnov test

De Kolmogorov-Smirnov test is gevoelig voor afwijkingen in locatie, schaal en vorm van de verdelingen. De locatie wordt aangegeven door parameters zoals het gemiddelde, de mediaan of de modus. Aandachtspunten voor je gebruik van deze test zijn:

  • Locatie (Verschuiving). De test is gevoelig voor verschuivingen in de locatie van de verdelingen. Als de locatie van de twee verdelingen significant verschilt, kan de Kolmogorov-Smirnov-test een lage p-waarde opleveren, wat aangeeft dat de verdelingen waarschijnlijk niet uit dezelfde populatie afkomstig zijn.

  • Schaal (Strekking of Compressie). Ook is de test gevoelig voor verschillen in schaal tussen de verdelingen. Als de schaal van de verdelingen verschilt, kan dit leiden tot een significant resultaat. Het kan echter moeilijk zijn om te onderscheiden of de verschillen worden veroorzaakt door schaalverschillen of door andere factoren.

  • Vorm (Vorm van de Verdeling). Afwijkingen in de vorm van de verdelingen kunnen de gevoeligheid van de test vergroten. Dit betekent dat niet alleen verschuivingen en schaalverschillen van invloed kunnen zijn, maar ook veranderingen in de vorm van de verdelingen. Bijvoorbeeld, als één verdeling meer pieken of uitschieters heeft dan de andere, kan dit de testresultaten beïnvloeden.

Wat is het verschil tussen Shapiro-Wilk test en Kolmogorov Smirnov test?

De Shapiro-Wilk-test en de Kolmogorov-Smirnov-test zijn beide methoden om de normaliteit van een dataset te testen, maar ze verschillen in hun benadering, toepassing en gevoeligheid.

De belangrijkste verschillen zijn:

1. Type test

De Shapiro-Wilk-test is een parametrische test, wat betekent dat het specifiek is ontworpen om te testen of een dataset afkomstig is van een normale verdeling.

De Kolmogorov-Smirnov-test is een niet-parametrische test die breder kan worden toegepast om te testen of een dataset overeenkomt met een bepaalde verdeling (niet alleen normaal) of om twee datasets met elkaar te vergelijken.

2. Sensitiviteit:

De Shapiro-Wilk-test is over het algemeen krachtiger dan de Kolmogorov-Smirnov-test als het gaat om het testen van normaliteit, vooral bij kleinere steekproefgroottes.

De Kolmogorov-Smirnov-test is gevoeliger voor verschillen in de staarten van de verdelingen, terwijl de Shapiro-Wilk-test meer nadruk legt op het midden van de verdeling.

3. Berekening van de teststatistiek

De teststatistieken die worden gebruikt om normaliteit te beoordelen, verschillen tussen de twee tests. De Shapiro-Wilk-test maakt gebruik van de afwijkingen tussen de geobserveerde waarden en de verwachte waarden onder een normale verdeling. De Kolmogorov-Smirnov-test maakt gebruik van de grootste verticale afstand tussen de empirische cumulatieve verdelingsfunctie van de steekproef en de theoretische verdeling.

4. Toepassingsgebied

De Shapiro-Wilk-test is gericht op het testen van normaliteit en werkt het beste voor dit specifieke doel. De Kolmogorov-Smirnov-test kan breder worden toegepast om verschillen tussen verschillende verdelingen te testen of om te controleren of een steekproef overeenkomt met een specifieke verdeling.

Wanneer kies je voor de Shapiro-Wilk-test en wanneer voor de Kolmogorov-Smirnov-test?

In het algemeen worden de Shapiro-Wilk-test en Kolmogorov-Smirnov-test gebruikt voor hetzelfde doel (normaliteitstoetsing), maar de keuze tussen de twee hangt vaak af van de aard van de dataset, de onderzoeksvraag en de omvang van de steekproef. De keuze tussen de Shapiro-Wilk-test en de Kolmogorov-Smirnov-test kan variëren afhankelijk van verschillende factoren, waaronder:

1. Steekproefgrootte

De Shapiro-Wilk-test presteert over het algemeen goed bij kleinere steekproefgroottes in vergelijking met de Kolmogorov-Smirnov-test. Voor kleine steekproeven kan de Shapiro-Wilk-test betrouwbaarder zijn in het detecteren van afwijkingen van normaliteit.

De Kolmogorov-Smirnov-test kan robuuster zijn bij grotere steekproeven, maar kan minder gevoelig zijn voor afwijkingen in het midden van de verdeling. Robuustheid in statistische tests betekent dat de test minder gevoelig is voor schendingen van bepaalde aannames of voor afwijkingen van de ideale omstandigheden.

2. Onderzoeksdoel

Als het specifieke doel is om te testen of een dataset normaal verdeeld is, is de Shapiro-Wilk-test vaak de voorkeurskeuze vanwege zijn gerichtheid op normaliteit.

Als je de verdeling van een dataset wilt vergelijken met een specifieke theoretische verdeling of als je twee datasets met elkaar wilt vergelijken, is de Kolmogorov-Smirnov-test meer geschikt.

3. Kenmerken van de dataset

Als er vermoedens zijn van afwijkingen van normaliteit in de staarten van de verdeling, kan de Kolmogorov-Smirnov-test nuttiger zijn vanwege zijn gevoeligheid voor extreme waarden.

Als je meer geïnteresseerd bent in het midden van de verdeling, kan de Shapiro-Wilk-test passender zijn vanwege de manier waarop het de normaliteit test.

De keuze tussen de tests is vaak gebaseerd op een combinatie van deze factoren en de context van de specifieke dataset en onderzoeksvraag. Het is ook verstandig om, indien mogelijk, verschillende normaliteitstests te gebruiken om een meer volledig beeld te krijgen van de verdeling van je gegevens.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?