Het Theorema van Bayes

Het Theorema van Bayes is een belangrijk principe in de statistiek en waarschijnlijkheidstheorie als alternatief voor frequentistische methoden.  Het is genoemd naar de Britse wiskundige en predikant Thomas Bayes. Hij publiceerde zijn theorema niet zelf; het werd postuum gepubliceerd door een vriend en collega genaamd Richard Price. Thomas Bayes overleed in 1761, en zijn bekende werk “An Essay towards solving a Problem in the Doctrine of Chances” werd gepubliceerd in 1763, twee jaar na zijn dood.

Dit theorema beschrijft hoe we onze kennis over een bepaalde gebeurtenis kunnen bijwerken op basis van nieuwe informatie. Het kan ook gaan om de vraag naar de kans op een bepaald verschijnsel, gegeven dat een ander verschijnsel plaats vindt. Er geldt dan een voorwaarde.

Voorwaardelijke kans is een concept in de waarschijnlijkheidstheorie dat verwijst naar de kans van een gebeurtenis A gegeven dat een andere gebeurtenis B heeft plaatsgevonden.

Voorbeeld van Theorema van Bayes

Denk aan het volgende voorbeeld:

Als het regent, wordt het wegdek nat en bij lage temperaturen misschien glad. Wat is de kans op verkeersongelukken op een bepaald traject, gegeven dat het een uur 1,1 mm regent bij een temperatuur rond het vriespunt. 

Het wordt vaak geschreven als P(A∣B), en het leest als “de kans op gebeurtenis A gegeven B”. De formule voor de voorwaardelijke kans is als volgt:

  • P(A∣B) =P(B)P(A∩B)

Het symbool ∩ lees je als “A én B”. Het symbool ∣ lees je als ” A gegeven B”

In wiskundige termen wordt het Theorema van Bayes vaak als volgt geschreven:

P(A∣B) =

P(BA)P(A)

      P(B)

Hierbij staat:

  • A∣B) voor de kans op gebeurtenis A gegeven dat B heeft plaatsgevonden.

  • P(B∣A) voor de kans op gebeurtenis B gegeven dat A heeft plaatsgevonden.

  • P(A) voor de oorspronkelijke kans op gebeurtenis A.

  • P(B) voor de oorspronkelijke kans op gebeurtenis B.

Het belang van het theorema van Bayes

Het Theorema van Bayes is om verschillende redenen van belang voor statistiek onderzoek:

  • Bijwerken van kennis: Het stelt onderzoekers in staat om hun voorafgaande aannames bij te werken op basis van nieuwe gegevens. Hierdoor kunnen hypothesen worden aangepast en kan onze kennis evolueren in het licht van nieuwe informatie.

  • Diagnostiek: In medische diagnostiek wordt het Theorema van Bayes vaak gebruikt om de kans op een bepaalde ziekte te beoordelen op basis van symptomen en testresultaten.

  • Besluitvorming: Het wordt gebruikt in besluitvormingsprocessen waarbij nieuwe informatie de oorspronkelijke aannames kan beïnvloeden. Dit is van toepassing op gebieden zoals bedrijfsstrategie, financiën en technologie.

  • Machine learning: In machine learning wordt Bayesiaanse statistiek gebruikt voor het ontwikkelen van Bayesiaanse modellen, waaronder Bayesiaanse netwerken, die effectief zijn bij het modelleren van onzekerheid en het maken van voorspellingen.

  • Onderzoek naar onzekerheid: Het Theorema van Bayes is essentieel voor het kwantificeren van onzekerheid en het omgaan met statistische inferentie. Het speelt een sleutelrol in het begrijpen van de betrouwbaarheid van wetenschappelijke resultaten.

Over het algemeen is het Theorema van Bayes een krachtig instrument voor het redeneren over onzekerheid en het nemen van beslissingen op basis van beschikbare informatie, waardoor het een onmisbaar onderdeel is van de statistiek en wetenschappelijk onderzoek.

Statistische toetsen gebaseerd op het Theorema van Bayes

Het Theorema van Bayes wordt niet direct toegepast in traditionele frequentistische statistische toetsen. Het Bayesiaanse statistische raamwerk verschilt van het frequentistische raamwerk in termen van interpretatie van waarschijnlijkheid en het omgaan met onzekerheid.

Noot: Frequentistische statistische toetsen zijn methoden in de statistiek die gebaseerd zijn op de frequentie-interpretatie van waarschijnlijkheid. Deze benadering richt zich op het analyseren van steekproefgegevens en het trekken van conclusies over populatieparameters. Hier is een korte uitleg van de belangrijkste concepten:

1. Hypothesevorming

  • Nulhypothese (H0): Een statement dat een bepaald effect of verschijnsel ontkent. Bijvoorbeeld, er is geen verschil tussen twee groepen.

  • Alternatieve hypothese (H1): Een statement dat een effect of verschijnsel beweert. Bijvoorbeeld, er is wel een verschil tussen twee groepen.

Verzamelen van gegevens via een steekproef uit de populatie.

3. Statistische Test

Het kiezen van een geschikte statistische test op basis van het type gegevens (bijvoorbeeld t-toets voor gemiddelden, chi-kwadraattoets voor associaties, etc.).

4. Significantieniveau (α)

De kans op het verwerpen van de nulhypothese wanneer deze waar is. Vaak wordt α ingesteld op 0,05.

5. P-waarde

De kans om een teststatistiek te observeren, gegeven dat de nulhypothese waar is. Als de p-waarde lager is dan het gekozen significantieniveau, verwerpen we de nulhypothese.

6. Besluitvorming

Als de p-waarde kleiner is dan het significantieniveau, verwerpen we de nulhypothese en aanvaarden we de alternatieve hypothese. Anders aanvaarden we de nulhypothese.

7. Betrouwbaarheidsinterval

Een interval rond de geschatte parameterwaarde dat een schatting geeft van de onzekerheid in die schatting.

Frequentistische benaderingen richten zich op het herhaaldelijk trekken van steekproeven uit een populatie en het analyseren van de frequentie van geobserveerde uitkomsten. Ze beschouwen parameters als vast en onbekend, en de conclusies zijn gebaseerd op de steekproefgegevens.

Naast deze Frequentistische benaderingen bestaan Bayesiaanse methoden en toepassingen die gebaseerd zijn op het Theorema van Bayes.

Wanneer gebruik je het Theorema van Bayes?

Het theorema van Bayes is een probabilistische benadering die een andere manier biedt om met onzekerheid om te gaan in vergelijking met frequentistische statistische toetsen. Hier zijn enkele aspecten waarin het theorema van Bayes zich onderscheidt en waar het toegevoegde waarde kan bieden ten opzichte van frequentistische benaderingen:

1. Behandeling van onzekerheid

Als je met gegevens werkt die uit verschillende subgroepen bestaan, overweeg dan om de gegevens te stratificeren en afzonderlijke analyses uit te voeren voor elke subgroep. Dit kan helpen bij het beheersen van de kurtosisproblemen in specifieke subpopulaties.

  • Frequentisme: Het frequentisme behandelt waarschijnlijkheid als de limiet van de frequentie van herhaling van een gebeurtenis in een oneindige reeks herhalingen. Het behandelt parameters als vast maar onbekend.

  • Bayesiaans: Het theorema van Bayes beschouwt waarschijnlijkheid als een maat voor geloof of onzekerheid. Het neemt parameters als variabel en beschrijft hun onzekerheid in termen van een kansverdeling.

2. Updates van geloof op basis van nieuwe gegevens

  • Frequentisme: Het maakt gebruik van p-waarden en significantieniveaus voor besluitvorming, maar deze benadering geeft geen expliciete informatie over hoe gegevens het geloof in een hypothese zouden moeten beïnvloeden.

  • Bayesiaans: Bayesiaanse analyse maakt gebruik van voorafgaande kennis (prior) en past deze aan op basis van nieuwe gegevens om een bijgewerkte kansverdeling voor parameters (posterior) te verkrijgen.

3. Kleine steekproefgroottes

  • Frequentisme: Kan minder robuust zijn bij kleine steekproefgroottes, omdat het afhankelijk is van de frequentie van gebeurtenissen in herhaalde steekproeven.

  • Bayesiaans: Kan beter omgaan met kleine steekproefgroottes door expliciet prioritaire informatie op te nemen.

Flexibiliteit bij modellering

  • Frequentisme: Vaak gericht op specifieke nul- en alternatieve hypothesen en teststatistieken.

  • Bayesiaans: Biedt flexibiliteit bij het specificeren van modellen en het incorporeren van externe kennis in de vorm van voorafgaande veronderstellingen.

De keuze tussen frequentistische en Bayesiaanse methoden hangt af van: de aard van het probleem, de beschikbare gegevens en de persoonlijke voorkeur van de onderzoeker. Beide benaderingen hebben hun eigen sterke punten en beperkingen. Daarom is het zinvol om ze als aanvullende tools te beschouwen in de statistische gereedschapskist.

Prior kennis

In bijzondere gevallen verdient een Bayesiaanse methode voor de analyse van data de voorkeur. Dan gaat het vooral om zgn. prior-kennis. Voor je verder gaat naar de praktijkvoorbeelden, iets over “prior-kennis”. 

In de Bayesiaanse statistiek verwijst “prior-kennis” naar de informatie die je als onderzoeker hebt of aanneemt over de parameters van een model voordat jij je gegevens analyseert. Het is een belangrijk concept omdat het de basis vormt voor de a priori kansverdeling van de parameters in het Bayesiaanse model. Deze prior-veronderstellingen worden gecombineerd met de likelihood (de kans op het waarnemen van de gegevens gegeven de parameters) om de posterior-verdeling te verkrijgen.

Een prior-verdeling kan verschillende vormen aannemen, afhankelijk van de beschikbare informatie en de overtuigingen van de onderzoeker. Hier zijn enkele veelvoorkomende vormen van prior-kennis:

1. Niet-geïnformeerde (of vage) prior

In gebrek aan specifieke informatie wordt soms een niet-geïnformeerde prior gebruikt, zoals een platte uniforme of een brede normale distributie. Dit geeft geen specifieke voorkeur aan bepaalde waarden van de parameters.

2. Informatieve prior

Onderzoekers kunnen externe informatie hebben die relevant is voor de parameters van het model. Dit kan worden vertaald naar een informatieve prior die de waarschijnlijkheid van bepaalde waarden van de parameters benadrukt.

3. Conjugate prior

Soms wordt een prior gekozen vanwege wiskundige handigheid. Een conjugate prior heeft de eigenschap dat het gecombineerd met een likelihood resulteert in een posterior-verdeling die dezelfde functionele vorm heeft als de prior. Dit vereenvoudigt de wiskundige analyse. Met andere woorden, als je begint met een bepaalde soort verdeling tussen de elementen van een verzameling (bijv. een zak met snoepjes met bepaalde kleuren), dan zal de “conjugate prior” na het toevoegen van nieuwe snoepjes van dezelfde soort op dezelfde manier verdeeld zijn.

4. Empirische prior

Als er eerdere gegevens beschikbaar zijn, kan deze informatie worden gebruikt om een empirische prior te vormen. Dit is vooral nuttig wanneer de eerdere gegevens relevant zijn voor het huidige onderzoek. Dat is bijvoorbeeld, het aantal verkeersongelukken op het wegdek van een bepaald traject bij slecht weer.

Praktijkvoorbeelden van Bayesiaanse methoden

De keuze van de prior is een belangrijk aspect van Bayesiaanse analyse en kan invloed hebben op de resultaten. Het weerspiegelt de subjectieve overtuigingen en kennis van de onderzoeker. Bayesiaanse statistiek staat toe om deze prior-kennis expliciet te modelleren en bij te werken met nieuwe gegevens, wat een flexibele en krachtige benadering biedt voor statistische analyse. Het belang van de prior neemt vaak af naarmate er meer gegevens beschikbaar komen, omdat de likelihood dan meer invloed heeft op de posterior. 

Hier zijn enkele algemene voorbeelden:

Bayesiaanse methoden zijn vaak complexer en vereisen meer interpretatie dan frequentistische methoden. Bayesiaanse analyses impliceren het gebruik van voorafgaande of prior-kennis. Dat kan leiden tot subjectiviteit in de analyse. Daarom is een zorgvuldige keuze tussen frequentistische en Bayesiaanse benaderingen op basis van de aard van de gegevens en de onderzoeksvraag belangrijk.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?