zaterdag 4 juli 2015

Universitaire smaad- en lastercampagne tegen onderzoek schrijfvaardigheid



Laatst bijgewerkt op 11/7/2015


Frank van Kolfschooten heeft op 1 juli op de website van de NRC een stukje gepubliceerd over ons conflict met de RUG betreffende de dertig teksten van het foutenonderzoek. Zijn stukje is nogal eenzijdig en geeft vooral weer hoe de universiteit het conflict probeert te verkopen aan de buitenwereld.

Zijn stukje is qua strekking op beperkte schaal (ik schreef eerder op 'grote' schaal, maar dat blijkt niet te kloppen) overgenomen door andere media waaronder de site van de Telegraaf. Ik laat hier de tekst van het stukje op de site van de Telegraaf volgen.


Let op: het hierna volgende stukje is misleidend!
-----
Taalwetenschappers Anouk van Eerden en Mik van Es weigeren dertig teksten te overhandigen die zij hebben gebruikt bij hun proefschrift over taalvaardigheid van studenten. Daarmee schenden zij volgens een onderzoekscommissie van de Rijksuniversiteit Groningen (RUG) de wetenschappelijke integriteit.
Een Groningse commissie oordeelde vorig jaar dat de wetenschappers de achterliggende gegevens moeten verstrekken, maar het duo blijft weigeren met een beroep op privacyoverwegingen. Dat meldt NRC Handelsblad woensdag.
Uit het proefschrift van Van Eerden en Van Es bleek dat eerstejaarsstudenten aan universiteit en hogeschool respectievelijk veertig en tachtig taalfouten per A4'tje maken. Dat riep sceptische reacties op, maar controle is vooralsnog niet mogelijk.
-----


1. De stelling dat wij de wetenschappelijke integriteit geschonden zouden hebben, is volstrekte onzin.
De Nederlandse Gedragscode Wetenschapsbeoefening (NGW) kent geen verplichting tot het publiceren van onderzoeksmateriaal. Er bestaat voor ons dus geen verplichting om op verzoek achteraf teksten te publiceren, die we overigens volgens de privacywetgeving ook beslist niet mogen publiceren. Dat we de teksten niet mogen publiceren, wordt ook toegegeven door de RUG. Volgens de NGW is het juist zo dat we ons in de eerste plaats moeten houden aan de wet.

Wij hebben de leden van het College van Bestuur van de Rijksuniversiteit Groningen (RUG) in verband met deze bewering over onze integriteit per aangetekend schrijven beschuldigd van smaad en laster. De RUG heeft deze beschuldiging tot nu toe op geen enkele manier weerlegd, bestreden of ontkend.


2. De uitspraak van de RUG is onrechtmatig.
Volgens het promotiereglement en de NGW heeft de universiteit geen enkele bevoegdheid tot het beoordelen van ons gedrag na de promoties. Ook de minister en staatssecretaris van Onderwijs, Cultuur en Wetenschap hebben dit gesteld (brief d.d. 26 februari 2013 aan de voorzitter van de Tweede Kamer).

Wij hebben de RUG herhaaldelijk op dit punt gewezen. Tot nu toe is de RUG er op geen enkele manier in geslaagd aannemelijk te maken dat men wel wettelijk bevoegd zou zijn. Integendeel, men heeft gesteld te zullen reageren op onze bezwaren, maar dat vervolgens nooit gedaan.

Zie hier voor een uitgebreidere bespreking van de vraag naar de rechtmatigheid.


3. Het artikel van Van Kolfschooten bevestigt dat er vanuit de universiteiten een smaad- en lastercampagne tegen het proefschrift en ons gevoerd wordt. In deze campagne speelt de RUG een belangrijke rol.
Deze smaad- en lastercampagne (zie hier voor een lijst met de belangrijkste incidenten) is begonnen na het verschijnen van ons proefschrift. Een concreet voorbeeld is het merkwaardige artikel in de Volkskrant over ons onderzoek gebaseerd op de reacties van vier hoogleraren waarvan twee anoniem wensten te blijven. Wij konden later aantonen dat het artikel niet alleen eenzijdig, maar ook frauduleus was. Binnen deze campagne speelt de RUG afgaande op de bij ons bekende informatie een actieve en centrale rol. Het artikel van Frank van Kolfschooten past volledig in deze campagne.

Uit het artikel van Van Kolfschooten blijkt dat een woordvoerder van de RUG uitspraken gedaan heeft over ons en ons onderzoek. Volgens de Regeling Bescherming Wetenschappelijke Integriteit van de RUG dienen integriteitsuitspraken echter binnen zes weken geanonimiseerd gepubliceerd te worden op de site van de VSNU. In ons geval had de uitspraak dan voor 1 maart gepubliceerd moeten zijn. Dat heeft de RUG echter niet gedaan. In plaats daarvan heeft men de uitspraak niet-geanonimiseerd gepubliceerd via Van Kolfschooten en de NRC. Dit punt bevestigt dus dat de RUG actief betrokken is bij deze smaad- en lastercampagne.

Het is ons bekend dat er tussen Van Kolfschooten en de RUG tijdens de voorbereiding van zijn artikel een nauwe relatie bestond. Of er tussen de RUG en Van Kolfschooten financiële banden bestaan, weten we niet, maar dit kan vooralsnog niet worden uitgesloten, omdat Van Kolfschooten blijkens zijn website van diverse zijden opdrachten aanneemt als publicist en niet uitsluitend voor de NRC werkt.

In een eerder stadium heeft Van Kolfschooten een brief die we als smadelijk en lasterlijk beschouwen, gestuurd naar de werkgever van een van ons. Wij hebben de heer Van Kolfschooten daarna per mail laten weten aangifte te zullen doen wegens smaad en laster. Van Kolfschooten vermeldt in zijn stuk deze persoonlijke betrokkenheid bij het conflict niet. 


4. Controle van onze resultaten is eenvoudig mogelijk.
Een terugkerend thema in de universitaire smaad- en lastercampagne is dat onze resultaten moeten worden gecontroleerd. Ons soort mensen (travestieten, transgenders en alles wat daar een relatie mee heeft) valt nu eenmaal niet te vertrouwen, is de impliciete boodschap. Verder zijn zonder die dertig teksten de resultaten nu eenmaal niet te controleren, is de rest van de boodschap. De laatste zin van het stukje in de Telegraaf stelt het letterlijk: 'controle is vooralsnog niet mogelijk'.

Dat is als modder-gooi-techniek leuk bedacht, maar onwaar. Als onze resultaten niet gecontroleerd hadden kunnen worden, was ons proefschrift nooit goedgekeurd, omdat het in dat geval niet aan de gebruikelijke wetenschappelijke normen voldeed.

Hoe kunnen onze resultaten gecontroleerd worden? De eerste methode is eenvoudig en simpel. De fouten natellen. In bijlage 3 (hier) en bijlage 4 van het proefschrift (hier) staan alle 989 bevestigde fouten die gevonden werden in het foutenonderzoek beschreven met het commentaar van de beoordelaars die de fout signaleerden en met het stuk zin waarin de fout voorkwam. (Bijlage 3 bevat de 913 kloppende bevestigde fouten, bijlage 4 in het proefschrift zelf de 76 als niet-kloppend beoordeelde bevestigde fouten.) Helemaal waterdicht is deze methode natuurlijk niet.

Er is maar één waterdichte methode in de wetenschap; het is altijd goed die toe te passen en zeker bij mensen die je niet vertrouwt. Dat is het onderzoek een aantal keer overdoen (repliceren). Voor dat doel hebben we de methode van het foutenonderzoek, zoals dat hoort, precies beschreven in paragraaf 4.2.2 van het proefschrift.

Nu komt er iets geks. We hebben drie klagende hoogleraren. Die hoogleraren beschikken over een heel leger van slimme studenten die toch onderzoek moeten doen. Omdat onze methode al helemaal beschreven is, is dat deel van ons promotieonderzoek ook nog eens vrij snel over te doen. Die drie over het onderzoek klagende hoogleraren hebben inmiddels meer dan een jaar tijd gehad het onderzoek te repliceren, maar doen dat vervolgens niet.

Waarom niet? Omdat het doel niet is het onderzoek te repliceren, maar het onderzoek onderuit te halen. Als je repliceert loop je natuurlijk een stevige kans dat alles bevestigd wordt. Dat is niet de bedoeling. De bedoeling is ons onderzoek en ons te beschadigen en zo mogelijk kapot te maken.


5. Waarom een smaad- en lastercampagne?
Bij ons weten is een publieke smaad- en lastercampagne in de wetenschap en op de universiteit vrij ongebruikelijk. Hoe is het mogelijk dat men vanuit de universitaire wereld in ons geval zijn toevlucht meent te moeten nemen tot een dergelijke campagne? Wij hebben lang gezocht naar een antwoord op deze vraag.

Bij smaad- en lastercampagnes waarbij een groep mensen actief betrokken is, spelen vaak drie factoren een rol. Allereerst moet er sprake zijn van een waargenomen groepstegenstelling. Bijvoorbeeld: blank-gekleurd. De ene groep ziet zichzelf als hoger, beter en machtiger dan de andere groep, die men beschouwt als laag, slecht en minderwaardig. Ten tweede moeten de leden van de groep die zichzelf als hoog ziet, beschikken over bepaalde persoonlijkheidseigenschappen. Hoewel iedereen last heeft van vooroordelen, zal niet iedere blanke even enthousiast meedoen aan het beschadigen en eventueel kapot maken van een niet-blanke. Ten derde moet er een trigger zijn. Een superieure prestatie van een lid van de lagere groep is strijdig met het groepsvooroordeel en roept daardoor gemakkelijk emoties en agressie op.

In ons geval werkte het verschijnen van ons proefschrift als trigger. In het proefschrift wordt kritiek geleverd op het schrijfonderzoek en het moderne schrijfonderwijs. Verder werd aangetoond dat de heersende theorie dat fouten er niet toe doen, onjuist is. Aan de twee bekende maten voor het meten van schrijfvaardigheid werden maar liefst drie nieuwe toegevoegd. Ten slotte werd nog een methode gedemonstreerd om schrijfvaardigheid in korte tijd belangrijk te verbeteren. Voor wetenschappers die zichzelf zagen als 'schrijfspecialist', was het proefschrift daarmee een slag in het gezicht.

Het irritante proefschrift kwam daarbij van mensen die wetenschappelijk gezien geen status hadden (promovendi, weinig publicaties) en maatschappelijk gezien behoorden tot een vreemde en als minderwaardig geziene groep (foute man, geen echte man, transgenders). Superieure prestaties van leden van een outgroup blijken vaak tot agressieve en emotionele reacties te leiden. Een bekend voorbeeld is de reactie in nazi-Duitsland op Einstein. Zijn prachtige resultaten botsten met de nazi-ideologie dat Joden minderwaardige mensen waren. Het resultaat was dat men aan de ene kant de theorie van Einstein als ondeugdelijk probeerde voor te stellen en aan de andere kant dat hij in de populaire pers werd neergezet als iemand die vermoord moest worden.

De derde factor is dat het een bepaalde persoonlijkheidsstructuur vraagt om actief aan dit soort acties mee te doen en zich niets aan te trekken van de wettelijke, morele en ethische bezwaren. In het geval van Einstein is bijvoorbeeld bekend dat de toonaangevende natuurkundigen zich over het algemeen verre van dit soort acties hielden. Met betrekking tot ons proefschrift hebben we soortgelijke ervaringen. Kwantitatieve, empirische wetenschappers reageren doorgaans in de trant van: knap stuk werk, mooi gedaan. Het zijn met name taalwetenschappers en bestuurders die bij de smaad- en lastercampagne betrokken zijn.

(Ons proefschrift ligt overigens niet op het gebied van de taalwetenschap, maar op het gebied van de onderwijspsychologie. Anouk is van origine taalkundige, ik ben van huis uit onderwijspsycholoog.)


6. Wat is het effect van een smaad- en lastercampagne?
Smaad- en lastercampagnes zijn uitermate effectief. Een bekend voorbeeld is Lucia de Berk. Ze werd ten onrechte veroordeeld voor moord en zat jarenlang in de gevangenis dankzij geruchten die met royale hand over haar verspreid werden. Een ander bekend voorbeeld is de nazipropaganda in de Tweede Wereldoorlog met betrekking tot minderheidsgroepen. Psychologen zeggen: 'Dirt sticks.' De laster blijft kleven en kan daardoor grote negatieve gevolgen hebben voor het lid of de leden van de minderheidsgroep.

De reden dat smaad- en lastercampagnes zo effectief zijn, is dat ze berusten op klassieke conditionering (onze verklaring). Dat betekent dat ze effectief zijn of de toehoorder wil of niet. Het leereffect is onvrijwillig. Informatie die eenmaal in het hoofd zit, laat zich daar nooit meer volledig uit verwijderen (de cognitieve verklaring). Nadat eenmaal de koppeling dat mijnheer Pieterse misschien pedofiel is, gelegd is, valt die nooit meer volledig ongedaan te maken. Integendeel, wanneer Pieterse roept dat hij geen pedofiel is, versterkt hij onbedoeld alleen de foute koppeling. Zie voor een uitleg het gratis downloadbare 'The Debunking Handbook'. 


7. Wat betekent het wetenschappelijk gezien wanneer wetenschappers terugvallen op smaad en laster?
Wanneer wetenschappers emotioneel negatief reageren op een artikel hebben ze in beginsel drie manieren om die negatieve emotie vorm te geven en positief te benutten. De meest eenvoudige manier is de publicatie zorgvuldig te lezen en daarna op te schrijven wat er mis is en dat te publiceren. Een volgende wetenschapper kan daar mogelijk zijn voordeel mee doen of het kan de basis zijn voor vervolgonderzoek van de wetenschapper zelf.

Een tweede methode is de data (de vastgelegde waarnemingen) van het onderzoek op te vragen en te checken. Vaak zit er in de data meer informatie dan de oorspronkelijke onderzoeker zich realiseerde. Dit kan daarmee tot nieuwe inzichten leiden.

Een derde methode is het onderzoek te repliceren. Een knullig onderzoekje kan als het goed gerepliceerd wordt, leiden tot een mooi en belangrijk nieuw onderzoek.

Een volgende methode is niet correct. Een wetenschapper kan een lang en emotioneel verhaal opschrijven waarom hij een bepaalde benadering helemaal fout vindt. Hij verdiept zich dan niet in het uitgevoerde onderzoek, maar ventileert vooral zijn opinie. Medestanders van hem zien hun opinie bevestigd, maar de betrokken wetenschappers halen hun schouders op. De kritiek leidt niet tot beter onderzoek. In feite is deze vorm van kritiek slechts stemmingmakerij.

Een methode die nog een stap verder gaat, is het gooien met modder. Het verspreiden van smaad en laster. Wetenschappelijk gezien is deze methode niet acceptabel. In de wetenschap zijn argumenten op de persoon niet toegestaan. Dat Einstein Jood was, heeft niets van doen met de vraag of de relativiteitstheorie wel of niet klopte. Ook het zo maar in het wilde weg uiten van allerhande negatieve veronderstellingen betreffende het onderzoek, is niet toegestaan. De wetenschapper moet eerst onderzoek doen en mag pas daarna voorzichtige conclusies uiten.

Op het moment dat wetenschappers terugvallen op het gooien met modder, geven ze daarmee ook belangrijke informatie prijs over zichzelf en het onderzoek of de onderzoeker die ze aanvallen. In feite zeggen ze immers: de drie erkende manieren van kritiek lijken ons bij dit onderzoek hopeloos, dus vallen we maar terug op verdachtmakingen. Door dat te doen laten ze echter ook weten zichzelf niet aan de wetenschappelijke normen te kunnen houden. Aan de ene kant erkennen ze dat het bestreden onderzoek solide is, aan de andere kant reiken ze zichzelf een brevet van wetenschappelijk onvermogen uit.

De betekenis van een smaad- en lastercampagne in dit geval is daarmee in ieder geval dat er wetenschappelijk gezien kennelijk een goed stuk werk geleverd is dat men via de erkende manieren van kritiek niet onderuit denkt te kunnen halen. 


8. Is er sprake van discriminatie?
Ons inziens wel. Daar zijn een hele reeks aanwijzingen voor. Het meest harde argument is een kansberekening. De kans dat de universiteit na een promotie reageert met een veroordeling (van het gedrag van de gepromoveerde na de promotie) als 'wetenschappelijk niet integer' is vrijwel zeker kleiner dan een op duizend. De kans dat de promovendus openlijk travestiet is, is vrijwel zeker ook kleiner dan een op duizend. De kans dat beide zaken tegelijkertijd optreden is dan een op het miljoen. Die kans is te klein om nog geloofwaardig te zijn. Het lijkt dus wetenschappelijk gezien, volstrekt zeker dat mijn openlijke travestie een rol moet hebben gespeeld bij de reactie van de RUG.

Dat betekent uiteraard niet dat andere factoren geen rol gespeeld hebben. Hiervoor noemde ik al een aantal. Omdat er ons inziens onmiskenbaar sprake is van discriminatie zullen wij op dit punt tegen de universiteit en de betrokkenen verdere stappen ondernemen.


woensdag 3 juni 2015

Conflict met College van Bestuur RUG over dertig teksten


Na onze promoties op 8 mei 2014 is er een conflict ontstaan met het College van Bestuur van de RUG over de dertig teksten van het foutenonderzoek. Deze teksten zijn door vier beoordelaars onderzocht op fouten. Het onderzoek leverde op dat eerstejaarsstudenten uit het hbo gemiddeld ongeveer 80 (bevestigde) fouten per A4 van 500 woorden maken.

In het proefschrift zijn deze teksten niet als bijlage gepubliceerd, omdat de betrokken studenten geen toestemming is gevraagd voor publicatie.

De oorzaak van het conflict is de eis van professor J., die als opponent bij de verdediging van het proefschrift betrokken was, dat hij de dertig teksten wil hebben.

Om het conflict minnelijk te schikken hebben wij de RUG inzage in de teksten aangeboden. Verder hebben we voorgesteld de betrokken studenten alsnog om toestemming te vragen. De RUG toonde voor geen van deze voorstellen enige interesse.

Inmiddels is ook het College van Bestuur tot de overtuiging gekomen dat de teksten niet gepubliceerd mogen worden. Naar de opvatting van het college zouden echter professor J. en twee andere hoogleraren wel recht hebben op de teksten.

Als zelfstandige onderzoekers die verantwoordelijk zijn voor de teksten in het kader van de privacy-wetgeving, gaan wij niet in deze merkwaardige opvatting mee. Het kan niet zo zijn dat de privacy-wetgeving wel geldt voor gewone wetenschappers, maar niet voor klagende hoogleraren.

Omdat wij niet meten met twee maten, zouden wij volgens het College van Bestuur 'wetenschappelijk niet-integer zijn' en zouden wij 'weigeren de data van het onderzoek ter beschikking te stellen'. Wij beschouwen deze uitspraken als onrechtmatig, smadelijk en lasterlijk. Ons inziens zeggen deze uitspraken meer over het College van Bestuur van de RUG dan over ons.

De verklaring voor de stelling dat wij zouden weigeren de data ter beschikking te stellen, is dat het College van Bestuur het 'onderzoeksmateriaal' (de dertig teksten) verwart met de 'onderzoeksdata' (de getallen die per fout aangeven welke beoordelaar de fout gesignaleerd heeft). De dertig teksten mogen wij niet publiceren, de onderzoeksdata wel. Deze laatste zijn op verzoek beschikbaar.

Een uitgebreid verslag van het conflict is gepubliceerd in Transformatie (april 2015), het periodiek van de Transgendervereniging Nederland. In dit artikel wordt aangetoond dat er kennelijk een statistisch uiterst significante relatie bestaat tussen het merkwaardige gedrag van het College van Bestuur en het transgender-activisme van de tweede auteur van het proefschrift. Wij zullen het gedrag van het College van Bestuur daarom melden bij een discriminatie meldpunt.





vrijdag 30 mei 2014

Stellingen basale schrijfvaardigheid

 Mik van Es

Bij het proefschrift 'Meten en maximaliseren van basale schrijfvaardigheid' zaten een 14-tal stellingen zoals dat bij een academisch proefschrift hoort. Ik geef hieronder de stellingen die betrekking hadden op schrijfvaardigheid. De A-stellingen zijn van Anouk, de M-stellingen zijn van mij.

A1. Een student die geen goede zinnen kan produceren, kan ook geen goede teksten produceren.

A2. Bij schrijfonderwijs wordt liefst niet geschreven (dit proefschrift).

A4. Gebrekkige basale schrijfvaardigheid van studenten kan eenvoudig worden vastgesteld en geremedieerd (dit proefschrift).

A5. Lezers laten zich sterk beïnvloeden door fouten in een tekst (dit proefschrift).

A6. "Woorden zijn wegbereiders voor toekomstige daden, vonken van toekomstige branden" (Kafka). Met foute woorden, zoals bij beginnende studenten vaak het geval is (dit proefschrift), valt niet uit te sluiten dat het vervolgens ook met de daden en branden fout gaat.

M1. Basale schrijfvaardigheid kan betrouwbaar worden vastgesteld door een enkele expert-beoordelaar.

M2. Om basale schrijfvaardigheid snel, goedkoop en betrouwbaar vast te stellen, voldoet een online-programma als TAVAN (dit proefschrift).

M7. Effectief schrijfonderwijs levert jaarlijks vrijwel zeker vele malen meer op (dit proefschrift) dan de jaarlijkse Nederlandse aardgasbaten (De Kam, 2009) en raakt nooit op.












dinsdag 20 mei 2014

Journalistieke fraude bij de Volkskrant

Laatst bijgewerkt: 21/05/2014 17:02

Mik van Es

Op zaterdag 10 mei verscheen in de Volkskrant in de rubriek 'WAAR/NIET WAAR' een stuk over ons promotie-onderzoek van freelance journalist Ronald Veldhuizen.

In de kop van het artikel was WAAR doorgestreept, zodat NIET WAAR overbleef. Voor de claim dat onze uitkomsten of conclusies onjuist zouden zijn, werd echter geen enkele feitelijke onderbouwing gegeven.

In het artikel werden vijf argumenten aangevoerd van algemene aard tegen de uitkomsten en conclusies van ons onderzoek. Alle vijf argumenten kunnen door ons eenvoudig weerlegd worden en zijn onjuist.

Verder werd hoogleraar didactiek Wouter van Joolingen geciteerd met uiterst algemene en vage kritiek die erop neer kwam dat ons onderzoek flut was. Waar hij zijn mening precies op baseerde, werd niet duidelijk.

Naar onze mening is het bewuste artikel beschuldigend, smadelijk, feitelijk onjuist, ongefundeerd en vrijwel volledig gebaseerd op roddel en achterklap. Verder werd op geen enkele wijze ons weerwoord in het artikel verwerkt.

Naar aanleiding van dit artikel hebben wij bij de redactie van de Volkskrant meerdere malen aangedrongen op rectificatie en gelegenheid tot het geven van weerwoord.

Op zaterdag 17 mei heeft de ombudsvrouw van de Volkskrant in de kop van haar vaste rubriek aangegeven dat de geuite kritiek op ons onderzoek onterecht was.

Een gelegenheid tot weerwoord is door de Volkskrant tot nu toe echter nog steeds niet gegeven. Ook was de wijze waarop de Volkskrant rectificeerde ons inziens weinig bevredigend.


Reconstructie 

Via Twitter en het artikel van de ombudsvrouw konden we het volgende achterhalen.

De basis voor het artikel van Ronald Veldhuizen blijkt een tweet te zijn die de chef Wetenschap, Maarten Keulemans, ontvangt van hoogleraar didactiek Wouter van Joolingen. Maarten en Wouter hebben onderling (in ieder geval via Twitter) wel vaker contact. Wouter tweet op 29 april naar Keulemans:
De #Volkskrant tikt kritiekloos stukje over het taalfoutenonderzoek.  Niet zo goed @mkeulemans.
(Na het verschijnen van het artikel van de ombudsvrouw op 17/05 is deze tweet door Wouter op 19/05 verwijderd.)

Voor de tweet van Wouter bestaat een persoonlijke reden. Op Twitter heeft Wouter een serie vragen gesteld op het gebied van elementaire statistiek. Op een bepaald moment heb ik hem via een tweet doorverwezen naar een inleiding statistiek. Die tweet viel bij Wouter niet goed blijkens de retour-tweet.


Na ontvangst van deze tweet gaat de chef Wetenschap, Maarten Keulemans, aan de slag. De ombudsvrouw omschrijft het zo: 
Als de chef op Twitter de opmerking 'De #Volkskrant tikt kritiekloos stukje over het taalfoutenonderzoek' ziet, ziet hij een herkansing in de rubriek WAAR/NIET WAAR. Een freelancer, die deze rubriek vaker verzorgt, spreekt vier hoogleraren en voert er twee in zijn stuk op.
De chef Wetenschap geeft opdracht aan freelance journalist Ronald Veldhuizen een kritisch stukje te schrijven over ons onderzoek. De bedoeling is te laten zien wat er mis is met het onderzoek.

Ronald legt vervolgens contact met Wouter van Joolingen en zoekt nog wat meer mensen met kritiek op ons onderzoek. Doordat het onderzoek nogal negatief is over het bestaande schrijfonderzoek en speciaal de mogelijke negatieve invloed daarvan op het onderwijs, is het bij schrijfonderzoekers en taalbeheersers niet echt populair.

Ronald heeft in totaal vijf punten van kritiek gehoord van de mensen die hij kon vinden. In combinatie met een paar citaten precies voldoende voor een stukje. Hij heeft voldaan aan zijn opdracht. Zijn opdrachtgever, de chef Wetenschap, kan tevreden zijn. Het verlangde stukje ligt er.

Er is echter één probleem. De verzamelde kritiek is niet erg steekhoudend. Dat is begrijpelijk, omdat ons onderzoek vele malen is gecontroleerd en beoordeeld. Verder blijken de mensen die moeite hebben met onze statistische-psychometrische benadering wel kritiek te hebben op onze benadering, maar het in de praktijk moeilijk te vinden 500 bladzijden met die 'foute' benadering door te ploeteren. De verzamelde kritiek is daarmee vooral getwitter en borrelpraat.

Een normale stap was nu geweest de bij elkaar gesprokkelde kritiek aan ons voor te leggen en ons om commentaar te vragen. Dan leek de kans echter groot dat wij de kritiek zouden weerleggen. Dat was niet de bedoeling. De bedoeling was de Volkskrant als een kritische krant te afficheren. Om die reden werd ons ook daarna geen gelegenheid tot weerwoord gegeven. De aan de lezer gepresenteerde kritiek op ons onderzoek moest overeind blijven.

Op de dag van het verschijnen van het artikel van Ronald Veldhuizen retweet de chef Wetenschap, Maarten Keulemans, op 10 mei de volgende tweet van Casper Hulshof: 
In VK kritische heel kritische woorden van o.a. over onderzoek schrijfvaardigheid eerstejaarsstudenten.
De missie was volbracht.



Journalistieke fraude


Het artikel in de Volkskrant was van het begin af aan niet bedoeld een correct beeld van ons onderzoek te schetsen, maar was bedoeld een negatief beeld te presenteren van ons onderzoek om op die manier de Volkskrant als een kritische krant te afficheren.

Er was sprake van opzettelijk handelen (1), er werd een misleidende voorstelling van zaken gegeven (2), met de bedoeling voordeel te behalen (3), wij zijn als onderzoekers door de misleidende beeldvorming benadeeld (4) en er is sprake van niet correct handelen door het niet vragen en opnemen van weerwoord  (5). Volgens de gebruikelijke opvattingen gaat het hier ons inziens om fraude. In dit geval: journalistieke fraude.

De krant die ons beschuldigde van fabuleren en op die manier ons imago als onderzoekers beschadigde, blijkt zelf willens en wetens te fabuleren om op die manier haar imago op te poetsen.

zondag 18 mei 2014

Alles fout of veel fout?


Laatst bijgewerkt: 19/05/2014 15:11
Mik van Es,  Anouk van Eerden

In de Sir Edmund van 10 mei laat Ronald Veldhuizen een halve bladzij lang zijn licht schijnen over ons promotie-onderzoek. In dat onderzoek vonden we voor eerstejaars hbo-studenten gemiddeld 81 fouten per A4 (500 woorden). Verder lieten we zien dat een nieuw programma het aantal fouten met 20% verminderde.

In de kop van het artikel is WAAR doorgestreept zodat NIET WAAR! overblijft. Ook de inhoud van het artikel laat weinig ruimte voor twijfel. Een hoogleraar didactiek wordt geciteerd die stelt: 'Het is vreemd dat dit als promotie kan doorgaan.' De onderzoeksmethode zou niet deugen. Het artikel eindigt met het citaat: 'Het [proefschrift] is een schoolvoorbeeld van slecht lezen en selectief winkelen.'

Na al dat verbale geweld ben je als lezer misschien geneigd te concluderen dat de gerapporteerde resultaten en de conclusies uit ons onderzoek niet kloppen.

De twee hoofdstukken (4 en 6) uit ons promotie-onderzoek (http://goo.gl/HNpVpg) met de hiervoor vermelde resultaten zijn door in totaal acht hoogleraren beoordeeld en goedgekeurd. Voordat die twee hoofdstukken de deur uitgingen, hebben we deze zelf uiteraard ook eindeloos gecheckt. Welke kardinale fout hebben wij met zijn tienen collectief gemist, die Veldhuizen er als journalist onmiddellijk uitpikt?

We blijken niet één enkele fout gemaakt te hebben, maar blijken eigenlijk alles fout gedaan te hebben. We hadden te weinig studenten in onze steekproef, de studenten kwamen van te weinig opleidingen. We zouden de allereerste studenten die we konden vinden als steekproef genomen hebben.

Hè...? We hebben toch duidelijk vermeld dat we aselect getrokken hebben. De procedure is zelfs uitvoerig beschreven (p. 93-95)? Heeft Veldhuizen dat niet gelezen?

Ook de methode die we ontwikkeld en gebruikt hebben om fouten objectief te kunnen tellen, is fout volgens Veldhuizen. De methode fout? Maar als onderzoeker mag je toch zelf je methode kiezen? Daarom is de beschrijving van de methode zo belangrijk bij onderzoek. Weet Veldhuizen dat niet? Googelen leert dat Veldhuizen geen beroepsmatige ervaring heeft met wetenschappelijk onderzoek.

Wat is er eigenlijk fout aan onze methode? We hebben rekening gehouden met de lengte van de teksten. Volgens Veldhuizen hadden we dat juist niet moeten doen. Dan hebben echter de studenten die de kortste teksten inleveren de minste fouten. Dat zijn in de praktijk juist de studenten die het slechtste schrijven.

Wacht eens even. Ook dit punt bespreken we uitgebreid in het proefschrift (p. 103-104)? Heeft Veldhuizen dat niet gelezen?

Hoogleraar taalvaardigheidsonderwijs Huub van den Bergh wordt geciteerd. Een paar foutjes meer of minder zouden niet uitmaken. Het gaat erom dat studenten helder formuleren. Dat heeft niets te maken met taalfouten, vindt hij.

In ons onderzoek tonen we aan dat het precies andersom is (p. 227-258). Het oordeel van lezers over de tekst wordt vrijwel volledig bepaald door het aantal fouten per honderd woorden. Fouten blijken juist het verschil te maken. Precies het tegenovergestelde van wat taalbeheersers al decennia beweren.

Ten slotte zouden we het bestaande schrijfonderzoek hebben genegeerd. In ons proefschrift gaan we daar echter uitgebreid op in (p. 28-41). Onze conclusie is niet positief. Het schrijfonderzoek lijkt vaak negatief ingewerkt te hebben op het schrijfonderwijs. Dat de desbetreffende onderzoekers dat niet graag horen, lijkt begrijpelijk.

Kortom, er is veel fout, maar niet in ons proefschrift.

vrijdag 16 mei 2014

Ons 'onware' onderzoek naar schrijfvaardigheid


Mik van Es

Bijgewerkt 21/5/2014 8:22


In de bijlage van de Volkskrant, de Sir Edmund, van 10 mei staat een 'vernietigend' stukje van Ronald Veldhuizen over ons onderzoek (van Anouk van Eerden en mij) naar schrijfvaardigheid.

Vroeger moest je als promovendus je proefschrift verdedigen tegenover de oppositie. Die oppositie bestond uit hoogleraren en hoofddocenten die kritische vragen over je proefschrift mochten stellen. Dat alles gebeurde onder de strakke leiding van de decaan die zorgde dat men onderling niet op de vuist ging. Verder was de tijd beperkt tot precies drie kwartier. Langer had geen zin, want het doel was na te gaan of de promovendus zijn eigen proefschrift redelijk kon toelichten.

Voordat men tot de verdediging werd toegelaten, moest eerst de promotor het proefschrift volledig in orde bevinden. Pas als de promotor het goed vond, ging het vervolgens door naar de beoordelingscommissie. Wanneer ook maar één lid van de beoordelingscommissie niet helemaal tevreden was, moest het proefschrift worden bijgesteld op die punten, waarna het opnieuw naar de beoordelingscommissie ging. Om tot de verdediging te worden toegelaten, was daarmee al met al geen kleinigheid.

Tegenwoordig blijkt er echter nog een extra stap bij deze al vrij zware procedure gekomen te zijn. De promovendus moet nu, als zijn proefschrift ten minste voldoende losmaakt bij het publiek, zijn proefschrift ook nog verdedigen tegenover de pers. Dit werd me duidelijk toen ik de rubriek 'WAAR / NIET WAAR!' las van Ronald Veldhuizen.

Wel, ik zal dat (na overleg met Anouk) proberen, hoewel dat niet eenvoudig is, omdat Ronald kennelijk zelf het proefschrift niet gelezen heeft en zijn informatie vooral ontleend aan wat enkele andere mensen met hun eigen agenda hem verteld hebben over het proefschrift. Ook nogal wat adjectieven zoals rampzalig, nietszeggend, vreemd, niet spectaculair, slecht en selectief maken een verdediging niet eenvoudiger. Hoewel ik dit stukje geschreven heb, heeft Anouk het ook gelezen en is ze het met de door mij aangevoerde punten eens.

Om ieder misverstand over zijn mening te voorkomen, is in de kop van het artikel WAAR doorgestreept, zodat NIET WAAR! overblijft. De lezer is gewaarschuwd: wij zijn niet te vertrouwen!

In ons onderzoek (500 bladzijden) staan veel resultaten en conclusies, maar voor zijn artikel beperkt Ronald zich tot twee. Wij vonden in ons onderzoek bij eerstejaars hbo-studenten (ik beperk me even tot de meest extreme uitkomst) 81 fouten per A4 met 500 woorden. Verder bleek een nieuw ontwikkeld computerprogramma het aantal fouten met 20% te reduceren.

In ons optimisme dachten we dat dit wel interessante resultaten waren, maar Ronald ziet dat anders. In de lead van zijn artikel formuleert hij het zo: 
Wat zegt de wetenschap? Foutjes turven is té gemakkelijk.
Nadat wij afgelopen donderdag tot doctor promoveerden, haalden wij opgelucht adem. Na meer dan zes jaar ploeteren, waren we eindelijk erkend als echte wetenschappers, dachten we. De zaterdag daarop lees je in de krant dat je het helemaal mis hebt. Want de Wetenschap heeft via Ronald Veldhuizen haar oordeel geveld: niet waar, onzin! De Sir Edmund raakte ons als een mokerslag. Ik zag Anouk wit wegtrekken, zelf kon ik me nog net op tijd vastgrijpen aan de tafel.

Wat hebben we precies verkeerd gedaan? We blijken niet een één fout gemaakt te hebben, maar een hele reeks, aldus Ronald. Eigenlijk is het gewoon een flut proefschrift. Hij laat hoogleraar didactiek Wouter van Jolingen, die op Twitter vragen stelt over elementaire statistiek, zeggen: 'Door de gebruikte methode wordt het onderzoek nietszeggend. Het is vreemd dat dit als promotie door kan gaan.'

Oei, had ik Wouter, 'professor of science and mathematics education' volgens zijn Twitter-profiel, maar voor de goede lezer in werkelijkheid hoogleraar didactiek van het Freudenthal Instituut, nu maar niet doorgestuurd naar een leerboek elementaire statistiek. Ook dom van ons om zoveel statistiek en psychometrie te gebruiken in het proefschrift. Hebben ze op het Freudenthal Instituut van Wouter een bloedhekel aan, omdat het geen realistisch rekenen is. Het is te wiskundig en bevat te weinig tekst.

Interessant in dit verband is dat de problemen die wij in ons proefschrift signaleren op het gebied van het huidige schrijfonderwijs volgens een mail die ik ontving van Ben Wilbrink (hier) sterk lijken op de problemen met het huidige rekenonderwijs. Ook daar lijken bevlogen onderwijsvernieuwers met het argument dat de wetenschap het allemaal aangetoond had (terwijl dat in werkelijkheid niet zo was), een grote negatieve invloed te hebben uitgeoefend op de kwaliteit van het rekenonderwijs door de invoering van het zogenaamde realistische rekenonderwijs te propageren.

Ook in dat geval werd de basisvaardigheid al bekend verondersteld, terwijl dat in werkelijkheid voor de grote groep leerlingen met een gemiddeld niveau of daaronder, veel te hoog gegrepen was. Precies hetzelfde fenomeen constateerden we in ons proefschrift voor het schrijfonderwijs. Men veronderstelde dat foutloos schrijven al aan het einde van de basisschool beheerst zou worden, zonder de moeite te nemen die veronderstelling empirisch te checken.

Bij de volgens velen 'noodlottige' invoering van het realistische rekenonderwijs (hier) speelde het Freudenthal Instituut een leidende rol. Ik kan me dus voorstellen dat ons onderzoek bij Wouter ook om die reden negatieve associaties opriep. Een foute benadering die begint bij het schrijfonderwijs kan gemakkelijk overslaan naar het realistische rekenonderwijs, heeft hij misschien gedacht.

Dat het inderdaad vrij slecht gesteld is met het onderwijs in basaal rekenen blijkt merkwaardig genoeg ook uit het stuk van Ronald Veldhuizen. Ronald berekent halverwege zijn stukje op hoeveel fouten we uitkomen als we beginnen met 81 fouten en we het foutenaantal met 20% reduceren. Om het nieuwe aantal fouten te vinden kun je natuurlijk 0.80x81 doen. Dat levert afgerond: 65 fouten. Ronald denkt echter volgens zijn tekst uit te komen op 62. Toch een behoorlijk verschil. Kennelijk hebben vandaag de dag dus soms ook wetenschapsjournalisten al moeilijkheden met basaal rekenen.

Maar als we over een paar taalfouten meer of minder niet moeilijk willen doen, willen we dat over een paar rekenfouten meer of minder vermoedelijk ook niet. Per slot van rekening: wat maakt het uit? Wel, bij de constructie van een brug kan dat net het verschil betekenen tussen een brug die blijft staan en een brug die instort. De attitude van een rekenfoutje meer of minder moet kunnen, kan dus veel geld kosten. Voor schrijfvaardigheid geldt echter precies hetzelfde. Want een foute komma of een fout woord in een zakelijk contract kan handen vol geld kosten.

Onze uitspraak over hbo-studenten is gebaseerd op een aselecte steekproef van 20 studenten die afkomstig zijn van een enkele opleiding. Dat zegt niet zoveel, vindt Ronald (of degene die hem over het proefschrift heeft voorgelicht). We hadden net zo goed een dwarsdoorsnee van de Amsterdamse bevolking kunnen proberen te krijgen door de eerste 10 mensen te turven die een willekeurige HEMA binnenwandelen.

Het is me een beetje duister wat Ronald precies met die opmerking bedoelt. Om te beginnen hebben we niet de eerste 10 studenten genomen of de eerste 20, maar hebben we steeds aselecte steekproeven getrokken. De exacte manier waarop die steekproeven getrokken zijn, staat zelfs in het proefschrift beschreven. Omdat Ronald dat niet wist, denken we dat hij het hele proefschrift nooit ingezien heeft, hoewel het gratis te downloaden is (http://goo.gl/HNpVpg).

Ten tweede vraag ik me af of die methode om bijvoorbeeld de eerste 20 mensen die een bepaalde HEMA ingaan, inderdaad zo'n vreselijk vertekend beeld zou geven. Stel dat je een globaal idee wilt krijgen van de lengte van Nederlanders. Je gaat bij een HEMA staan en meet de eerste 20. Strikt genomen is dat natuurlijk absoluut geen aselecte en dus geen representatieve steekproef. Maar is aangetoond dat je op die manier er vreselijk ver naast komt te zitten? Waar dan en door wie? Kortom, ik denk dat Ronald dit helemaal niet heeft uitgeprobeerd en uit zijn nek zit te kletsen.

Kijk, het is niet zo dat we zeggen dat we nu precies weten hoeveel bevestigde fouten per A4 (500 woorden) de gemiddelde eerstejaars Nederlandse hbo-student maakt. Allereerst zitten we met een ruim betrouwbaarheidsinterval van zeg -20 of +20. Het kan dus door de steekproef- onbetrouwbaarheid ook 61 zijn in het beste geval of 101 in het ergste geval. Ten tweede zal het per studierichting natuurlijk een beetje anders kunnen liggen en zelfs per stad. Maar als we in Groningen 81 vinden, zou het heel vreemd zijn als eerstejaars hbo-studenten in Den Haag onder de 40 zouden scoren. Onze uitkomsten zijn dus een globale indicatie voor hoe het vermoedelijk in Nederland met de schrijfvaardigheid van eerstejaars is gesteld. Zodra we meer en betere gegevens hebben, gebruiken we die natuurlijk.

Een tweede probleem dat Ronald ziet met ons proefschrift-onderzoek is dat we volgens hem een foute methode gebruikt hebben om het aantal fouten te corrigeren voor de lengte van de tekst. Wij werken namelijk met het aantal fouten per 500 woorden en niet met het aantal fouten dat een student in totaal in zijn tekst gemaakt heeft.

De reden om dat te doen, hebben we uitvoerig in het proefschrift beschreven. Ronald is daar echter niet mee op de hoogte en daardoor denken we opnieuw dat hij het hele proefschrift nooit heeft ingezien en volledig is afgegaan op wat bepaalde lieden met hun eigen agenda hem influisterden.

De reden om te corrigeren voor de lengte van de tekst is heel simpel. Slecht schrijvende studenten schrijven heel moeizaam en daardoor heel kort. Doordat ze weinig tekst produceren, hebben ze in totaal weinig fouten. Een student die gemakkelijk schrijft, schrijft ook veel en doordat hij veel schrijft, maakt hij uiteindelijk in totaal meer fouten in zijn tekst dan een slecht schrijvende student.

Doordat Ronald het proefschrift nooit gelezen heeft, vermeldt hij de volgende passage:
En laat de kortste teksten nou het hoogste aantal fouten bevatten.
In werkelijkheid bevatten de kortste teksten echter het kleinste aantal fouten. Hij beweert hier dus iets dat volstrekt niet klopt en als hij het proefschrift gelezen had, zou hij dat weten.

De wetenschapsredactie van de Volkskrant was zo vriendelijk me dit punt 5 minuten voordat de verdediging begon, voor te leggen. Ik heb toen een klein experiment voorgesteld. Selecteer op die manier de nieuwe journalisten voor de Volkskrant en kijk daarna wat de lezers vinden. Op basis van ons proefschrift-onderzoek valt de uitkomst namelijk volledig te voorspellen. De lezers zullen dat niet leuk vinden al die fouten in hun krant.

Dit voorstel voor een klein empirisch onderzoek werd door de chef Wetenschap opgevat als een persoonlijke aanval van mij op hem. Ik vond dit moeilijk te begrijpen. Kennelijk was mijn boodschap dat deze kritiek op onze methode onzin was, niet wat hij wilde horen.

Er is echter nog een ander punt dat de kritiek van Ronald op onze methode uiterst merkwaardig maakt. Bij wetenschappelijk onderzoek is de methode vrij. De onderzoeker kan dus zelf bepalen welke methode hij precies wil kiezen. Wat belangrijk is, is dat de methode goed beschreven wordt, zodat een andere onderzoeker het onderzoek kan herhalen.

Wanneer je gaat stellen dat we de verkeerde methode gebruikten, geef je aan dat je met dat basisprincipe van onderzoek doen niet op de hoogte bent. Ik ben Ronald toen eens gaan googelen en hij blijkt dan inderdaad nooit echt onderzoek gedaan te hebben of een kwalificatie op dat gebied te hebben. Dat sluit ook aan, bij de tekst in de lead: Wat zegt de wetenschap? De wetenschap zegt namelijk helemaal niets. Het zijn hoogstens individuele wetenschappers die iets zeggen en die blijken er in de praktijk nog wel eens naast te zitten.

Ronald twitterde hierover dat ik hiermee op de persoon speelde. Volgens mij klopt dat niet. Het punt waar het om gaat, is dat je kennis van zaken moeten hebben. Wanneer iemand zonder formele opleiding prima onderzoek doet, is er geen enkele reden om daar bezwaar tegen te maken. Maar wanneer iemand zonder formele opleiding vergaande uitspraken over het onderzoek van iemand anders meent te moeten doen en die uitspraken blijken vervolgens een groot onbenul te verraden op dat specifieke gebied, dan is er volgens mij een probleem. Er blijkt dan namelijk dat men zijn huiswerk niet gedaan heeft.

Een derde punt dat Ronald aanvoert als reden waarom ons onderzoek niet zou deugen, is dat ons trainingsprogramma niet bepaald spectaculair zou zijn. Ons trainingsprogramma brengt in 20 uur het aantal fouten met 20% terug. Ronald schrijft:
Het is niet bepaald spectaculair. (. . .) Een vooruitgang misschien, maar niet iets om over naar huis te schrijven.
Ons trainingsprogramma heeft in statistische termen een effect van meer dan 1 standaarddeviatie. Dat geldt in de sociale wetenschappen als een uiterst groot effect voor een trainingsprogramma. Dus opnieuw: dit lijken me toch zaken die je als wetenschapsjournalist behoort te weten.

Vervolgens wordt hoogleraar taalvaardigheidsonderwijs Huub van den Bergh aan het woord gelaten. Het maakt niet uit of studenten wat meer of minder fouten in een tekst maken. 'Schrijven houdt in dat je je gedachten helder op papier weet te formuleren. Dat is een andere vaardigheid, die niet te vatten is in makkelijk te tellen taalfouten.' Dat is inderdaad het standpunt dat taalbeheersers al decennia lang verkondigen.

In ons onderzoek tonen wij echter aan dat beide vaardigheden vrijwel volledig samenvallen. Het oordeel van beoordelaars over teksten blijkt vrijwel volledig bepaald te worden door het aantal fouten per 500 woorden, hoewel ze zich dat normaal volstrekt niet realiseren. Om volstrekt zeker te zijn van onze zaak hebben we dit ook nog eens vastgesteld met een experiment zodat er geen enkele twijfel mogelijk is over de causale aard van het verband. Wat de taalbeheersers decennia lang beweerd hebben, blijkt bij toetsing aan de empirie onjuist te zijn.

Het lijkt begrijpelijk dat hoogleraren taalbeheersing die decennia het tegenovergestelde beweerd hebben, dat niet leuk vinden om te horen. De opwinding over ons proefschrift in bepaalde kringen lijkt daarmee wel verklaarbaar.

Huub stelt ook nog dat we al jaren weten hoe het schrijfonderwijs beter kan. Hij bedoelt daarmee, dat hij dat wel denkt te weten. Als zijn methode echt werkt, waar we niet bij voorbaat van overtuigd zijn, zouden we dat graag eerst aangetoond zien via een fatsoenlijk uitgevoerd experiment met een controlegroep en een voor- en nameting. Hoe dat precies kan en moet wordt in ons proefschrift uiteengezet (hoofdstuk 3).

Op het einde van het stukje wordt dan nog gesteld, dat het lijkt alsof we al het bestaande schrijfonderzoek genegeerd hebben. Ons proefschrift zou 'een schoolvoorbeeld van slecht lezen en selectief winkelen' zijn volgens Huub.

In werkelijkheid besteden we in ons proefschrift een groot aantal bladzijden aan het bestaande schrijfonderzoek (p. 28-41). Onze conclusie is echter niet positief. Onderzoekers deden vaak vergaande uitspraken op basis van te weinig en te gebrekkig onderzoek. Uitspraken zijn vaak niet 'evidence-based,' maar projecties van ideeën die men heeft over hoe men denkt dat het is. Het schrijfonderzoek heeft mogelijk daardoor een negatieve invloed uitgeoefend op docenten en het oefenen met taal en schrijven in de klas, is onze voorzichtige conclusie.

Terug naar de vraag in de lead: wat zegt de wetenschap? Volgens Ronald zegt de wetenschap dat foutjes turven té makkelijk is. Ons onderzoek laat via een experiment zien dat het aantal fouten per 500 woorden het oordeel van de lezer in zeer sterke mate beïnvloedt. Foutjes turven is dus wat er in ieder geval ook gedaan moet worden in het basale schrijfonderwijs, mits we corrigeren voor de lengte van de tekst.






donderdag 1 mei 2014

'Elementaire statistiek, mijn beste Watson'


Ons onderzoek gaat over basale schrijfvaardigheid. Uit ons onderzoek blijkt dat het daar niet zo best mee is gesteld.

Uit de reacties op ons onderzoek van journalisten, maar ook van collega wetenschappers, blijkt dat het met de kennis van de elementaire statistiek vaak ook niet al te best is gesteld.

Wat is het probleem? In ons onderzoek naar het aantal fouten dat studenten maken in hun werk gebruiken we twee relatief kleine steekproeven. De steekproef van WO-studenten telt slechts 10 studenten. De HBO-steekproef telt 20 studenten. Beide steekproeven zijn aselect getrokken uit grotere groepen studenten. Belangrijk daarbij was dat het om meerdere 'klassen' eerstejaars ging en dat die 'klassen' compleet waren, dus niet door ons voorgeselecteerd.

Het grote probleem voor mensen blijkt nu te zijn, dat ze niet begrijpen dat je op basis van een kleine, aselect getrokken steekproef iets kunt zeggen over het aantal fouten dat eerstejaars studenten in Nederland in doorsnee maken. 'Hoe kan zo kleine steekproef nu representatief zijn?', zeggen ze.

Als docent statistiek moet je dan even heel diep ademhalen. Helemaal omdat het vaak om mensen gaat die eigenlijk toch wel beter zouden moeten weten.

Kennis van de statistiek krijgen kinderen tegenwoordig al in het VWO. Daarna wordt het op de universiteit soms nog stevig overgedaan. Je zou dus denken dat er wel een bepaalde basiskennis in de populatie aanwezig zou zijn. In de praktijk lijkt dat echter sterk tegen te vallen.

Goed. Laat ik proberen het uit te leggen. De grootte van de steekproef zegt niets over de representativiteit. Punt. Een steekproef van 1 miljoen Nederlanders hoeft dus helemaal niet representatief te zijn.

Een bekend voorbeeld van een grote, niet-representatieve steekproef werd geleverd door Shere Hite. Door via een tijdschrift een vragenlijst te verspreiden over seksualiteit, reageerden vooral vrouwen die zich door dat onderwerp getriggerd voelden. Het resultaat was een zeer grote, zwaar geselecteerde steekproef die daardoor zeer misleidende uitkomsten gaf.

Om een representatieve steekproef te krijgen, is er maar één erkende methode. Dat is zo willekeurig mogelijk uit de populatie trekken. Ieder lid van de populatie moet dus een even grote kans hebben in de steekproef terecht te komen. Alleen op die manier mag je hopen dat je resulterende steekproef representatief is. Ik zeg 'hopen', omdat in deze procedure het toeval dus een belangrijke rol speelt. Door toeval kan je steekproef iets meer of iets minder representatief uitvallen.

Heel vervelend, maar niet erg. Dat toeval kunnen we namelijk incalculeren. Met toeval kunnen we rekenen. Nu kom ik bij het tweede punt. De grootte van de steekproef en de nauwkeurigheid of de betrouwbaarheid.

Een heel grote, aselect getrokken steekproef is natuurlijk betrouwbaarder dan een kleine steekproef. Dat klopt. Daar is ook een simpele formule voor. De standaarddeviatie van de steekproef gedeeld door de vierkantswortel van het aantal levert de standaardfout. De standaardfout is ongeveer zoveel als de gemiddelde verwachte afwijking.

In ons geval ging het om twee kleine steekproeven. De WO-studenten scoorden 42 fouten. De standaardfout blijkt 5 te zijn. Dat betekent in de praktijk dat als we heel veel pech hadden, we misschien wel 10 fouten van die 42 moeten aftrekken of er 10 bij op moeten tellen. Als ik er 10 aftrek, kom ik uit op 32. Lijkt me nog steeds belangrijk meer dan laten we zeggen 10. Ervan uitgaande dat iemand die doorstroomt naar het WO aan het einde van de basisschool 10 fouten in een A4 van 500 woorden zou mogen maken.

Voor de HBO-steekproef kunnen we een soortgelijke redenering opzetten. We vinden daar 81 fouten per A4 van 500 woorden. De standaardfout is daar 9, zeg voor het gemak maar 10. Wanneer we heel veel pech hadden, zouden we dan misschien 20 hoger of lager uitkomen. Dat betekent dat zelfs in het meest optimistische scenario we nog steeds 61 fouten zouden vinden. Dat lijkt me toch iets meer dan de 10 fouten per A4 die we zonet nog acceptabel vonden.

Conclusie: hoe je het ook draait of keert, eerstejaars studenten in het hoger onderwijs maken veel meer fouten in hun schriftelijk werk dan ze zouden moeten maken. Kennelijk functioneert het voorafgaande onderwijs op dit punt dus kennelijk niet goed.

Ik ben voor het gemak uitgegaan van twee keer de standaardfout om het simpel te houden. Ik denk dat dat terecht is voor mensen die het verschil niet begrijpen tussen steekproef-grootte en steekproef-selectie (steekproef representativiteit). Maar mensen die het betrouwbaarheidsinterval precies willen koppelen aan een bepaalde kans moet even onder die term in hun statistiekboek kijken of op de Wikipedia.

Een punt dat wel klopt, is dat we eerstejaars studenten van bepaalde studierichtingen moesten nemen. Voor andere studierichtingen kan het weer net ietsje anders liggen. Ook hebben we Groningse studenten gebruikt, dus in Amsterdam zou het theoretisch totaal anders kunnen liggen. Verder is onze steekproef al weer enkele jaren oud, dus het onderwijs zou opeens gigantisch verbeterd kunnen zijn in de tussentijd. Allemaal waar, maar wij doen empirisch onderzoek. Wij nemen dus waar aan een klein aantal gevallen en proberen dan voorzichtig te generaliseren. Als iemand een betere methode weet, houden alle empirische wetenschappers zich aanbevolen.

Samengevat: een steekproef moet in de eerste plaats aselect getrokken zijn (met zo min mogelijk selectie). De grootte van de steekproef is niet zo belangrijk, omdat we die via de standaardfout kunnen vertalen in een betrouwbaarheidsinterval.


Toevoeging

Verder is het natuurlijk niet zo dat deze resultaten alleen staan. Allereerst zijn er heel veel publicaties over een tekortschietende schrijfvaardigheid bij eerstejaars studenten. Ten tweede worden de resultaten van het foutenonderzoek bevestigd bij het TAVAN-effectonderzoek. Vervolgens hebben we dan ook nog het fouteneffect-onderzoek dat ook weer soortgelijke resultaten oplevert.

Deze toevoeging heeft echter niets te maken met de representativiteit en betrouwbaarheid van een steekproef. Het is vooral een algemeen principe. Als alle natuurkundigen denken dat onderzoek en de theorie uitwijzen dat de lichtsnelheid de grootst mogelijke snelheid is en je vindt bij een meting het tegenovergestelde, ga je niet onmiddellijk denken dat iedereen zich vergist heeft, maar dat jezelf misschien een foutje heb gemaakt bij het meten. Je gaat dan je hele procedure nog eens checken en zo nodig het hele ondezoek herhalen.