donderdag 1 mei 2014

'Elementaire statistiek, mijn beste Watson'


Ons onderzoek gaat over basale schrijfvaardigheid. Uit ons onderzoek blijkt dat het daar niet zo best mee is gesteld.

Uit de reacties op ons onderzoek van journalisten, maar ook van collega wetenschappers, blijkt dat het met de kennis van de elementaire statistiek vaak ook niet al te best is gesteld.

Wat is het probleem? In ons onderzoek naar het aantal fouten dat studenten maken in hun werk gebruiken we twee relatief kleine steekproeven. De steekproef van WO-studenten telt slechts 10 studenten. De HBO-steekproef telt 20 studenten. Beide steekproeven zijn aselect getrokken uit grotere groepen studenten. Belangrijk daarbij was dat het om meerdere 'klassen' eerstejaars ging en dat die 'klassen' compleet waren, dus niet door ons voorgeselecteerd.

Het grote probleem voor mensen blijkt nu te zijn, dat ze niet begrijpen dat je op basis van een kleine, aselect getrokken steekproef iets kunt zeggen over het aantal fouten dat eerstejaars studenten in Nederland in doorsnee maken. 'Hoe kan zo kleine steekproef nu representatief zijn?', zeggen ze.

Als docent statistiek moet je dan even heel diep ademhalen. Helemaal omdat het vaak om mensen gaat die eigenlijk toch wel beter zouden moeten weten.

Kennis van de statistiek krijgen kinderen tegenwoordig al in het VWO. Daarna wordt het op de universiteit soms nog stevig overgedaan. Je zou dus denken dat er wel een bepaalde basiskennis in de populatie aanwezig zou zijn. In de praktijk lijkt dat echter sterk tegen te vallen.

Goed. Laat ik proberen het uit te leggen. De grootte van de steekproef zegt niets over de representativiteit. Punt. Een steekproef van 1 miljoen Nederlanders hoeft dus helemaal niet representatief te zijn.

Een bekend voorbeeld van een grote, niet-representatieve steekproef werd geleverd door Shere Hite. Door via een tijdschrift een vragenlijst te verspreiden over seksualiteit, reageerden vooral vrouwen die zich door dat onderwerp getriggerd voelden. Het resultaat was een zeer grote, zwaar geselecteerde steekproef die daardoor zeer misleidende uitkomsten gaf.

Om een representatieve steekproef te krijgen, is er maar één erkende methode. Dat is zo willekeurig mogelijk uit de populatie trekken. Ieder lid van de populatie moet dus een even grote kans hebben in de steekproef terecht te komen. Alleen op die manier mag je hopen dat je resulterende steekproef representatief is. Ik zeg 'hopen', omdat in deze procedure het toeval dus een belangrijke rol speelt. Door toeval kan je steekproef iets meer of iets minder representatief uitvallen.

Heel vervelend, maar niet erg. Dat toeval kunnen we namelijk incalculeren. Met toeval kunnen we rekenen. Nu kom ik bij het tweede punt. De grootte van de steekproef en de nauwkeurigheid of de betrouwbaarheid.

Een heel grote, aselect getrokken steekproef is natuurlijk betrouwbaarder dan een kleine steekproef. Dat klopt. Daar is ook een simpele formule voor. De standaarddeviatie van de steekproef gedeeld door de vierkantswortel van het aantal levert de standaardfout. De standaardfout is ongeveer zoveel als de gemiddelde verwachte afwijking.

In ons geval ging het om twee kleine steekproeven. De WO-studenten scoorden 42 fouten. De standaardfout blijkt 5 te zijn. Dat betekent in de praktijk dat als we heel veel pech hadden, we misschien wel 10 fouten van die 42 moeten aftrekken of er 10 bij op moeten tellen. Als ik er 10 aftrek, kom ik uit op 32. Lijkt me nog steeds belangrijk meer dan laten we zeggen 10. Ervan uitgaande dat iemand die doorstroomt naar het WO aan het einde van de basisschool 10 fouten in een A4 van 500 woorden zou mogen maken.

Voor de HBO-steekproef kunnen we een soortgelijke redenering opzetten. We vinden daar 81 fouten per A4 van 500 woorden. De standaardfout is daar 9, zeg voor het gemak maar 10. Wanneer we heel veel pech hadden, zouden we dan misschien 20 hoger of lager uitkomen. Dat betekent dat zelfs in het meest optimistische scenario we nog steeds 61 fouten zouden vinden. Dat lijkt me toch iets meer dan de 10 fouten per A4 die we zonet nog acceptabel vonden.

Conclusie: hoe je het ook draait of keert, eerstejaars studenten in het hoger onderwijs maken veel meer fouten in hun schriftelijk werk dan ze zouden moeten maken. Kennelijk functioneert het voorafgaande onderwijs op dit punt dus kennelijk niet goed.

Ik ben voor het gemak uitgegaan van twee keer de standaardfout om het simpel te houden. Ik denk dat dat terecht is voor mensen die het verschil niet begrijpen tussen steekproef-grootte en steekproef-selectie (steekproef representativiteit). Maar mensen die het betrouwbaarheidsinterval precies willen koppelen aan een bepaalde kans moet even onder die term in hun statistiekboek kijken of op de Wikipedia.

Een punt dat wel klopt, is dat we eerstejaars studenten van bepaalde studierichtingen moesten nemen. Voor andere studierichtingen kan het weer net ietsje anders liggen. Ook hebben we Groningse studenten gebruikt, dus in Amsterdam zou het theoretisch totaal anders kunnen liggen. Verder is onze steekproef al weer enkele jaren oud, dus het onderwijs zou opeens gigantisch verbeterd kunnen zijn in de tussentijd. Allemaal waar, maar wij doen empirisch onderzoek. Wij nemen dus waar aan een klein aantal gevallen en proberen dan voorzichtig te generaliseren. Als iemand een betere methode weet, houden alle empirische wetenschappers zich aanbevolen.

Samengevat: een steekproef moet in de eerste plaats aselect getrokken zijn (met zo min mogelijk selectie). De grootte van de steekproef is niet zo belangrijk, omdat we die via de standaardfout kunnen vertalen in een betrouwbaarheidsinterval.


Toevoeging

Verder is het natuurlijk niet zo dat deze resultaten alleen staan. Allereerst zijn er heel veel publicaties over een tekortschietende schrijfvaardigheid bij eerstejaars studenten. Ten tweede worden de resultaten van het foutenonderzoek bevestigd bij het TAVAN-effectonderzoek. Vervolgens hebben we dan ook nog het fouteneffect-onderzoek dat ook weer soortgelijke resultaten oplevert.

Deze toevoeging heeft echter niets te maken met de representativiteit en betrouwbaarheid van een steekproef. Het is vooral een algemeen principe. Als alle natuurkundigen denken dat onderzoek en de theorie uitwijzen dat de lichtsnelheid de grootst mogelijke snelheid is en je vindt bij een meting het tegenovergestelde, ga je niet onmiddellijk denken dat iedereen zich vergist heeft, maar dat jezelf misschien een foutje heb gemaakt bij het meten. Je gaat dan je hele procedure nog eens checken en zo nodig het hele ondezoek herhalen.

















Geen opmerkingen:

Een reactie posten