Wat is de statistische power?

De statistische power van een statistische toets is het vermogen om in te schatten of een nulhypothese terecht of onterecht is verworpen. Het is niet alleen interessant om een onderzoek af te sluiten met een significant resultaat, maar ook met een robuust significant resultaat. Een resultaat met een hoge waarschijnlijkheid van feitelijke juistheid.

In een onderzoek bepaalt de significantie van de uitkomst van de statistische toets of de nulhypothese kan blijven staan of moet worden verworpen. Daarop zijn verdere conclusies en aanbevelingen gebaseerd. De gevonden uitkomst kan zodanig boven kans zijn, dat het onderzochte verschijnsel niet als louter toeval kan worden afgeschreven. Er zijn dan significante uitkomsten te rapporteren. Met andere woorden: de uitkomst valt zodanig binnen het bepaalde significantieniveau, dat wordt aangenomen dat toeval in het onderzoek een te grote rol speelde. De nulhypothese kan blijven staan. Dan wordt gerapporteerd dat vooralsnog géén significant resultaat is gevonden. Maar hoe zeker is de onderzoeker van zijn zaak?

Fouten in de keuze wel of niet verwerpen nulhypothese

Bij het handhaven of verwerpen van de nulhypothese, kunnen zich twee verschillende situaties en dus twee verschillende fouten voordoen.

Na een onderzoek wordt gerapporteerd dat de nulhypothese kan worden verworpen. Er zijn significante uitkomsten die aanwijzen dat er meer dan louter toeval in het spel is. Of er wordt gerapporteerd dat er vooralsnog onvoldoende significante uitslagen zijn. Daarom wordt geadviseerd de nulhypothese vooralsnog te accepteren.

Wat zijn nu de fouten in mogelijke beslissingen? In het volgende schema worden deze samengevat.

Beslissing H0 feitelijk juist H0 feitelijk onjuist
Verwerp nulhypothese
Type I fout
Correcte beslissing
Accepteer nulhypothese
Correcte beslissing
Type II fout

Wat nu de correcte beslissing is, is zonder indicatie van de statistische power niet aan te wijzen. Er is wel een significantieniveau bekend. Men kan voor de grens van het verwerpingsgebied (rejection area) kiezen voor: 10%, 5% of 1%. Er is geen eenduidige wegwijzer voor de juiste beslissing. De significantie geeft nog niet de waarschijnlijkheid van een juiste beslising. Vooralsnog is niet bekend of er sprake is van een Type I fout of een Type II fout.

  • Type I fout: de nulhypothese is verworpen, maar is in werkelijkheid juist.

  • Type II fout: de nulhypothese is niet verworpen, maar is in werkelijkheid onjuist.

Hoe ‘significant’ de uitslag ook is, in alle onderzoeken is altijd sprake van de kans op een Type I of Type II fout. De statistische power geeft dan die kans en dus een mate van waarschijnlijkheid voor de juistheid voor het al dan niet verwerpen van de hypothese.

Belang van inzicht in de statistische power van een test

Door deze statistische power kan meer nauwkeurig onderzoek worden geleverd. Niet alleen of de uitkomst significant is, maar ook hoe zeker de onderzoeker van de zaak is. Voor de praktijk betekent de statistische power een graadmeter voor de mogelijke juistheid van keuzes. Het is de kans op het uitvinden dat de nulhypothese onjuist is, gegeven de waarde van de alternatieve hypothese. Dat geeft dan ook een waarborg tegen onbekende ‘kosten’ van een verkeerde beslissing. Men zal voor zakelijke beslissingen bijvoorbeeld willen weten wat de kosten zijn bij het wel of niet verwerpen van de nulhypothese. Dus, het prijskaartje bij een mogelijke Type I of Type II fout. Als de mogelijke kosten bekend zijn, kan men blijven doen alsof er niets bijzonders aan de hand is, of juist veranderingen aanbrengen omdat er wel iets aan de hand lijkt te zijn. Daarvoor is wel een risicoanalyse en dus informatie over de kans op een (on-)juiste beslissing nodig.

Berekening van de statistische power

Voor een onderzoek worden een nulhypothese en een alternatieve hypothese omschreven. Deze stellingen over twee mogelijke toestanden van de wereld, noteert men als H0 en H1: nulhypothese en één-hypothese. Evengoed wordt vaak genoteerd:  H0 en HA. De nulhypothese en de alternatieve hypothese.

Daarin is H0 de geteste hypothese en HA de alternatieve hypothese.

  • De kans op de type I fout, ten onrechte verwerpen van H0, noemt men de alfa-fout (alfa noteert men als α).

  • De kans op de type II fout, ten onrechte verwerpen van HA, noemt men de bèta-fout (bèta noteert men als β).

Keuze H0 feitelijk juist H1 feitelijk juist
H0
1 - α
β
H1
α
1 - β

De berekening van de power gaat volgens de formule:

Power = 1 – kans op type II fout. Dit wordt genoteerd als: Power = 1 – β

Hoe bereken je 1 – β?

Voor veel onderzoeken wordt uitgegaan van een kanswaarde van één op honderd of kleiner dat het experimentele verschijnsel optreedt. Als het tóch optreedt, is er wel wat aan de hand en kan de nulhypothese worden verworpen. Men noemt dit wel: if P is low, hypothesis must go. Dan mag de nulhypothese vertrekken ten gunste van de alternatieve hypothese.

Voor het volgende rekenvoorbeeld gaan we uit van de volgende hypotheses:

H0: µ = µ0

HA: µ = µ1

Dat wil zeggen:

In dit onderzoek vertegenwoordigen dus µ0 en µ1 twee verschillende, mogelijke numerieke waarden voor µ. De geteste hypothese stelt dat het gemiddelde van een bepaald populatiekenmerk gelijk is aan µ0. Uit het onderzoek moet eventueel blijken dat dit gemiddelde echter µ = µ1 blijkt te zijn. Dus, een flink afwijkend gemiddelde. De hypothese is concreet omschreven als een bepaald getal. Men had ook andere relaties kunnen leggen als: is gelijk, is groter dan of is kleiner dan.

We gaan er vanuit dat de steekproefverdeling van het populatiegemiddelde normaal verdeeld is. Dus, de eigenschap van de populatie die getoetst wordt, heeft een normaalverdeling met een bekende standaarddeviatie σ.

Stel nu dat de α foutkans is vastgesteld op 0,05 en dat het verwerpingsgebied zit in de rechterstaart van de Gausskromme die de verdeling in beeld brengt. We zijn dus met een eenzijdige toets geïnteresseerd in een waarde voor het populatiegemiddelde, dan wel een mogelijk hogere waarde van dat populatiegemiddelde. Dat moet uit een steekproef en een statistische toets blijken. De beslissingsregel is zo dat de beslissende waarde van het steekproefgemiddelde M is: µ0 + 1,65 σM. Het zogenaamde verwerpingsgebied begint bij gevonden waarden die hoger zijn dan µ0 + 1,65 σM.

De statistische power kan dan voor elke feitelijke HA worden benaderd. Als nu wordt aangenomen dat een mogelijk juiste alternatieve hypothese HA : µ = µ0 + 1σM, dan heeft de kritische waarde van M in de verdeling onder de nulhypothese H0 een gestandaardiseerde score (z-score) die wordt gegeven door:

z = (M- µ1)/  µ1

Dat wil zeggen: z is gelijk aan het verschil van de steekproefgrootte minus de aangenomen waarde voor het populatiegemiddelde, vervolgens gedeeld door de aangenomen waarde voor het populatiegemiddelde.

Cijfers ingevuld:

Statistische power formule 1

De kans dat een steekproef valt in het verwerpingsgebied voor H0, wordt dan gevonden in tabellen voor cumulatieve normaalkansen (cumulative normal probabilities) voor z-waarden. Deze tabellen zetten een z-waarde om in een F(z) cumulatieve waarschijnlijkheid. Een voorbeeld van zo’n tabel is: Biometrika Tables for Statisticians van E.S. Pearson en H.O. Hartley.

De bij deze z-waarde van 0,65 corresponderende kanswaarde blijkt te zijn:

Power = F(z) = 0,26.

Deze waarschijnlijkheid is dus 1- β en is de statistische power van de test.

We zijn dus geïnteresseerd in het gedeelte van de kansverdeling dat boven M = µ0 + 1,65 σM uitsteekt en dus boven het verwerpingsniveau voor H0 uitkomt, en zodoende in het verwerpingsgebied valt.  

Effect van de omvang van de waarde voor de alternatieve hypothese

Wat nu als een andere, veel hogere waarde voor de HA waar blijk te zijn?

Stel, HA: µ1 = µ0 + 3σM. De kritieke waarde voor M correspondeert dan met een zM van

zM  = (µ0 + 1,65 σM) – (µ0 + 3σM) = – 1,35 σM         

Dan is de power veel groter. Als voor deze z-waarde de corresponderende waarschijnlijkheid in de genoemde F(z)-tabellen wordt opgezocht, vinden we dat boven een z-waarde van -1,35 de waarde F(z) = 0,91 wordt gevonden voor een steekproefgemiddelde in een normaal verdeelde steekproefverdeling. De power is dan dus 0,91. Dat is significant meer dan 0,26.

Effect van de steekproefomvang op de statistische power

Algemeen wordt aangenomen dat hoe groter de steekproef, des te sterker de statistische power zal zijn. Veelal wordt aangedrongen op een steekproef die ‘groot genoeg’ is. Maar wat is groot genoeg?

In het volgende rekenvoorbeeld heeft een onderzoeker de beschikking over slechts 25 proefpersonen. Deze 25 cases maken een N = 25.

In een concurrerend onderzoek heeft men de beschikking over 100 proefpersonen. Deze 100 cases maken een N = 100.

Het onderzoek betreft de gemiddelde werkweek voor zelfstandige ondernemers. Gedurende enige tijd is de tijdschrijverij van een steekproef van deelnemers gevolgd. Daaruit wordt een te toetsen gemiddelde berekend. Voor beide onderzoekteams gelden de hypotheses:

H0: µ = 50 uren per week

HA: µ = 60 uren per week

Als de populatie een werkelijke standaarddeviatie heeft van σ, dan hangt de standaardfout van het gemiddelde omgekeerd evenredig samen met de vierkantswortel van de steekproefomvang N.

In formule: σM = σ/ √N

Dat wil zeggen: de gemiddelde afwijking van steekproefgemiddelden is gelijk aan de populatie-standaarddeviatie gedeeld door de wortel van het aantal onderzochte cases.

Als N groot is, dan is de standaardfout kleiner dan wanneer de N-waarde klein is. Als we ervan uitgaan dat 1 – β kleiner is dan α, dan leidt een toename in de steekproefomvang tot een toename in de power van elke willekeurige test van H0 tegen HA.

In een rekenvoorbeeld uitgewerkt:

Als de standaarddeviatie σ = 20 dan is σM = σ/ √N. Dus in de formule ingevuld: σM = 20/5 = 4

Als de waarde voor de α kans voor deze test is vastgesteld op 0,01, dan is de kritieke waarde voor M:

M = µ0 + 2,33 σM = 50 + (2,33*4) = 59,32

De z score is dan:

zM = (59,32 – 60)/ 4 = -0,68/4 = -0,17.

Daarmee valt 0,57 van alle steekproefgemiddelden in het verwerpingsgebied voor H0. De power is dan 0,57.

In het concurrerende onderzoek is de steekproefgrootte N=100. Dat verandert de standaardfout van gemiddelden naar:

σM = σ/ √N          = 20/√100=20/10 voor M naar M = 50 + (2,33*2) = 54,66

De corresponderende z-score als µ = 60 is dan: zM = (54,66 -60)/2 = 2,67

Met een blik in de bekende F(z)-tabellen vinden we de power in een waarde van F(z)= +0,99. De power is dan dus significant groter dan 0,57.

Met deze steekproefomvang kan het tweede team er meer zeker van zijn, terecht te ontdekken dat H0 verworpen kan worden als de bijbehorende HA waar is. Met slechts 25 proefpersonen of cases lukt dat een stuk moeilijker. Daarmee is aangegeven welk effect de steekproefomvang heeft op de statistische power.

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?