Wanneer gebruik je een steekproef?

Wanneer je niet de hele populatie van je onderzoeksgroep kunt onderzoeken, kun je ervoor kiezen een steekproef te nemen. Of, bij het vergelijken van verschillende populaties, neem je een steekproef uit verschillende populaties. Omdat je eigenlijk de gehele populaties wilt vergelijken maar niet kan, probeer je bij benadering achter een eigenschap van of verband tussen de populaties te komen.

P-waarde bepalen

Als je onderzoek is gericht op het toetsen van een hypothese, bepaal je eerst de onderzoeksvraag en hypothese. Bij die hypothese hoort een verwerpingsgebied. Een verwerpingsgebied is een reeks waarden voor de statistische toets waarbij de nulhypothese verworpen wordt. Je bepaalt daarvoor een P-waarde waaronder jij de resultaten van de toets als significant rapporteert. Je neemt daarmee ook een bepaalde vorm van kansverdeling aan. Denk daarbij aan een gangbare normaalverdeling, zoals de normaalverdeling met een klokvormige kansverdeling van waarden. 

Veel statistische toetsen gaan over een verschil of overeenkomst in de waarde van het gemiddelde of verschil in de waarde van de variantie of standaarddeviatie. Dat zijn de zogenaamde parametrische tests. Er bestaan ook non-parametrische tests, met weer eigen spelregels voor de steekproef. Die vallen nu buiten dit artikel.

Een onderzoek gaat vaak om het vergelijken van een score die je op basis van kansberekening (p-waarde) mag verwachten, met de uitkomst uit observaties of een experiment. Als de uitkomst een waarde heeft boven een te verwachten waarde (expected value), kun je het gevonden verschijnsel als toeval aanmerken. Er is dan geen significante uitkomst, want de uitkomst spoort met de kansberekening. 

Statistische berekening van minimale steekproefomvang

Significantieniveau

Voor de omvang van de steekproef noteer je een getal achter de N. De waarde N beïnvloedt alle volgende berekeningen van beschrijvende statistieken. Dat geldt voor het gemiddelde, de variantie, de standaarddeviatie en eventueel de z-waarde.

De beschrijvende steekproefstatistieken verwijzen naar de mogelijke waarden van de parameters van de hele populatie waar jij een uitspraak over wilt doen. Zo zegt de waarde van M = iets over het steekproefgemiddelde en zegt de waarde van µ = iets over het populatiegemiddelde. De waarde s2 = als steekproefvariantie zegt iets over σ2 = als populatievariantie. Als het goed is, is je steekproef een zuivere afspiegeling van de populatie. Dat is een goede basis om iets over de hele populatie te zeggen.

Welke waarden er voor M en S2 uit het onderzoek komen, weet jij niet vooraf. Dat moet immers blijken. Je weet wel hoe de hypothese is opgesteld, welk significantieniveau jij voor het onderzoek wilt aanhouden (dus welke waarde van α = voor jouw onderzoek van belang is), en welke waarden binnen of buiten je verwerpingsgebied vallen.

Je kunt ook achteraf bezien op welk niveau de uitkomsten significant blijken te zijn. Is dat het niveau van 95%, 80%? Of ben je al tevreden met 70%? Het is echter onderzoekstechnisch beter om vooraf je keuzes te bepalen. Vaak is het ook afhankelijk van de onderzoeksvraag, of van het te onderzoeken verschijnsel, op welk significantieniveau je toetst. Elk doel stelt eigen eisen.

Toleranties bepalen

Als je vooraf het significantieniveau bepaalt, kun je dus vooraf toleranties bepalen. De toleranties zijn waarden voor testuitslagen waarbij je de uitkomst accepteert of alarmerend vindt. Een signaal waarbij je dus tot actie overgaat. Dan ga je dus van zuiver onderzoek over naar toegepast onderzoek. Je rapporteert dan niet alleen om significante bevindingen te rapporteren, maar ook om eventuele acties te adviseren. Denk daarbij aan zware metalen in verf: als er significant veel lood en cadmium in een partij kinderspeelgoed zit, dan worden toleranties overschreden.

Als toleranties worden gepasseerd, zul je waarschuwen dat een productiepartij moet worden teruggeroepen vanwege vergiftigingsgevaar. Daarom moet een deel van de productie gecontroleerd worden.

Het is de vraag welke omvang je steeds als steekproef gebruikt. Als voorbeeld kun je denken aan hoeveel speelgoed steeds uit de productie moet worden genomen om te testen. Aan de ene kant denk je ‘hoe minder hoe beter’, want na de tests zijn de speeltjes in de steekproef onverkoopbaar. Je bespaart dus kosten. Andersom denk je misschien ‘hoe meer hoe beter’. Zo is er namelijk meer zekerheid voor de klant dat het kind geen stuk vergif in handen krijgt. Dit is een reëel dilemma tussen de kostenbeheersing van kwaliteitscontrole en het beperken van risico op productie-afval, reparatie en imagoschade.

In het volgende voorbeeld komen we tot de minimale steekproefomvang.

Voorbeeld berekening minimale steekproefomvang

In het volgende voorbeeld gaat het om een meubelwerkplaats waar planken op maat worden gezaagd voor het maken van meubels. Voor de assemblage van stoelen en tafels moet de timmerman op 3 millimeter nauwkeurig werken. Afwijkingen leiden tot kosten van herstel of afval van materiaal. Daarom wordt uitgegaan van een schattingsnauwkeurigheid of tolerantie van 3 millimeter, met 95% waarschijnlijkheid ofwel een betrouwbaarheidspercentage van 95%. Omdat ongeveer 95% van het werk moet passen binnen twee standaarddeviaties van het gemiddelde, 2σ van µ, is het de vraag om 3 millimeter gelijk te stellen aan 2σy.

Voor de kwaliteitscontrole moet steeds een steekproef uit de productielijn worden gehaald en zuiver worden nagemeten. Dat kost wachttijd, en tijd is geld. Het is dus de vraag hoeveel elementen minimaal uit de werkplaats moeten worden meegenomen voor de kwaliteitscontrole.

We weten dat: 2σy = 3, oftewel: 2 * (σ/√n) = 3.

Om de n op te lossen, schrijf je: N = (4 σ2/9).

Hoe kom je nu aan de waarde voor de geschatte populatieparameter σ?

Doordat dit niet de eerste controle is, omdat de werkplaats kan terugvallen op een reeks eerder genomen steekproeven, is bekend wat eerder gevonden varianties waren. Je kunt ook denken aan uiterste waarden als grondslag voor een verwachte waarde van de variantie. Bedenk dan dat de range (uiterste waarden) ongeveer gelijk is aan vier standaarddeviaties, dus 4σ. Bij meer dan 4σ ziet zelfs een blind paard dat het onderdeel uit de werkplaats niet zal gaan passen. Tussen 3 millimeter en 12 millimeter zit een zo groot verschil dat je daar geen vergrootglas voor nodig hebt.

Uit deze benadering volgt dan: 4 maal σ (= 3) = 12. De standaarddeviatie van de steekproeven s wordt dan de beste schatter voor σ als populatieparameter.

In de berekening gaat het om:

  • y = 3 onder het gemiddelde, en;

  • y = 3 boven het gemiddelde.

Dat wil zeggen: 3 millimeter te lang of 3 millimeter te kort. Dat is dus 2*2σy = 4σy.

De getallen worden nu in de formule ingevuld:

N = (4 σ2/9) = {(4) *(122)}/ {9} = 64.

Om nu met 95% zekerheid te toetsen of de hele partij voldoet aan de eis van 2σy = 3, is het dus nodig om minimaal n = 64 elementen loepzuiver na te meten. Bij minder haal je niet meer het vereiste betrouwbaarheidsniveau. Meer heb je niet per se nodig.    

Hulp bij statistiek nodig? Schakel een professionele begeleider van Scriptium in

Heb je moeite met statistiek? Wens je hulp te krijgen bij SPSS, STATA of R? Scriptium heeft 7 dagen per week professionele statistiekbegeleiders beschikbaar. Of je nu hulp bij statistiek in je scriptie wilt hebben, of bijles statistiek nodig hebt, we staan direct voor je klaar. Neem vandaag nog contact met ons op, en we komen snel bij je terug.

Auteur: Ryu Jamanota 
Motto: Beter weten door zuiver meten
 

De auteur gebruikt statistiek voor het analyseren van productie- en dienstverleningsprocessen. Aan de hand van statistische analyses onderzoekt hij of een bedrijfsproces langs de kortste weg levert wat er bedoeld is en of het proces ook beheersbaar en betrouwbaar verloopt. 

Laat een reactie achter

Je hebt al gestemd op dit artikel. Bedankt :-)
Wat vind jij van dit artikel?