Meten en maximaliseren van basale schrijfvaardigheid: mei 2014

vrijdag 30 mei 2014

Stellingen basale schrijfvaardigheid

Mik van Es

Bij het proefschrift 'Meten en maximaliseren van basale schrijfvaardigheid' zaten een 14-tal stellingen zoals dat bij een academisch proefschrift hoort. Ik geef hieronder de stellingen die betrekking hadden op schrijfvaardigheid. De A-stellingen zijn van Anouk, de M-stellingen zijn van mij.

A1. Een student die geen goede zinnen kan produceren, kan ook geen goede teksten produceren.

A2. Bij schrijfonderwijs wordt liefst niet geschreven (dit proefschrift).

A4. Gebrekkige basale schrijfvaardigheid van studenten kan eenvoudig worden vastgesteld en geremedieerd (dit proefschrift).

A5. Lezers laten zich sterk beïnvloeden door fouten in een tekst (dit proefschrift).

A6. "Woorden zijn wegbereiders voor toekomstige daden, vonken van toekomstige branden" (Kafka). Met foute woorden, zoals bij beginnende studenten vaak het geval is (dit proefschrift), valt niet uit te sluiten dat het vervolgens ook met de daden en branden fout gaat.

M1. Basale schrijfvaardigheid kan betrouwbaar worden vastgesteld door een enkele expert-beoordelaar.

M2. Om basale schrijfvaardigheid snel, goedkoop en betrouwbaar vast te stellen, voldoet een online-programma als TAVAN (dit proefschrift).

M7. Effectief schrijfonderwijs levert jaarlijks vrijwel zeker vele malen meer op (dit proefschrift) dan de jaarlijkse Nederlandse aardgasbaten (De Kam, 2009) en raakt nooit op.

dinsdag 20 mei 2014

Journalistieke fraude bij de Volkskrant

Laatst bijgewerkt: 21/05/2014 17:02

Mik van Es

Op zaterdag 10 mei verscheen in de Volkskrant in de rubriek 'WAAR/NIET WAAR' een stuk over ons promotie-onderzoek van freelance journalist Ronald Veldhuizen.

In de kop van het artikel was WAAR doorgestreept, zodat NIET WAAR overbleef. Voor de claim dat onze uitkomsten of conclusies onjuist zouden zijn, werd echter geen enkele feitelijke onderbouwing gegeven.

In het artikel werden vijf argumenten aangevoerd van algemene aard tegen de uitkomsten en conclusies van ons onderzoek. Alle vijf argumenten kunnen door ons eenvoudig weerlegd worden en zijn onjuist.

Verder werd hoogleraar didactiek Wouter van Joolingen geciteerd met uiterst algemene en vage kritiek die erop neer kwam dat ons onderzoek flut was. Waar hij zijn mening precies op baseerde, werd niet duidelijk.

Naar onze mening is het bewuste artikel beschuldigend, smadelijk, feitelijk onjuist, ongefundeerd en vrijwel volledig gebaseerd op roddel en achterklap. Verder werd op geen enkele wijze ons weerwoord in het artikel verwerkt.

Naar aanleiding van dit artikel hebben wij bij de redactie van de Volkskrant meerdere malen aangedrongen op rectificatie en gelegenheid tot het geven van weerwoord.

Op zaterdag 17 mei heeft de ombudsvrouw van de Volkskrant in de kop van haar vaste rubriek aangegeven dat de geuite kritiek op ons onderzoek onterecht was.

Een gelegenheid tot weerwoord is door de Volkskrant tot nu toe echter nog steeds niet gegeven. Ook was de wijze waarop de Volkskrant rectificeerde ons inziens weinig bevredigend.

Reconstructie

Via Twitter en het artikel van de ombudsvrouw konden we het volgende achterhalen.

De basis voor het artikel van Ronald Veldhuizen blijkt een tweet te zijn die de chef Wetenschap, Maarten Keulemans, ontvangt van hoogleraar didactiek Wouter van Joolingen. Maarten en Wouter hebben onderling (in ieder geval via Twitter) wel vaker contact. Wouter tweet op 29 april naar Keulemans:

De #Volkskrant tikt kritiekloos stukje over het taalfoutenonderzoek. Niet zo goed @mkeulemans.

(Na het verschijnen van het artikel van de ombudsvrouw op 17/05 is deze tweet door Wouter op 19/05 verwijderd.)

Voor de tweet van Wouter bestaat een persoonlijke reden. Op Twitter heeft Wouter een serie vragen gesteld op het gebied van elementaire statistiek. Op een bepaald moment heb ik hem via een tweet doorverwezen naar een inleiding statistiek. Die tweet viel bij Wouter niet goed blijkens de retour-tweet.

Na ontvangst van deze tweet gaat de chef Wetenschap, Maarten Keulemans, aan de slag. De ombudsvrouw omschrijft het zo:

Als de chef op Twitter de opmerking 'De #Volkskrant tikt kritiekloos stukje over het taalfoutenonderzoek' ziet, ziet hij een herkansing in de rubriek WAAR/NIET WAAR. Een freelancer, die deze rubriek vaker verzorgt, spreekt vier hoogleraren en voert er twee in zijn stuk op.

De chef Wetenschap geeft opdracht aan freelance journalist Ronald Veldhuizen een kritisch stukje te schrijven over ons onderzoek. De bedoeling is te laten zien wat er mis is met het onderzoek.

Ronald legt vervolgens contact met Wouter van Joolingen en zoekt nog wat meer mensen met kritiek op ons onderzoek. Doordat het onderzoek nogal negatief is over het bestaande schrijfonderzoek en speciaal de mogelijke negatieve invloed daarvan op het onderwijs, is het bij schrijfonderzoekers en taalbeheersers niet echt populair.

Ronald heeft in totaal vijf punten van kritiek gehoord van de mensen die hij kon vinden. In combinatie met een paar citaten precies voldoende voor een stukje. Hij heeft voldaan aan zijn opdracht. Zijn opdrachtgever, de chef Wetenschap, kan tevreden zijn. Het verlangde stukje ligt er.

Er is echter één probleem. De verzamelde kritiek is niet erg steekhoudend. Dat is begrijpelijk, omdat ons onderzoek vele malen is gecontroleerd en beoordeeld. Verder blijken de mensen die moeite hebben met onze statistische-psychometrische benadering wel kritiek te hebben op onze benadering, maar het in de praktijk moeilijk te vinden 500 bladzijden met die 'foute' benadering door te ploeteren. De verzamelde kritiek is daarmee vooral getwitter en borrelpraat.

Een normale stap was nu geweest de bij elkaar gesprokkelde kritiek aan ons voor te leggen en ons om commentaar te vragen. Dan leek de kans echter groot dat wij de kritiek zouden weerleggen. Dat was niet de bedoeling. De bedoeling was de Volkskrant als een kritische krant te afficheren. Om die reden werd ons ook daarna geen gelegenheid tot weerwoord gegeven. De aan de lezer gepresenteerde kritiek op ons onderzoek moest overeind blijven.

Op de dag van het verschijnen van het artikel van Ronald Veldhuizen retweet de chef Wetenschap, Maarten Keulemans, op 10 mei de volgende tweet van Casper Hulshof:

In VK kritische heel kritische woorden van o.a. @woutervj over onderzoek schrijfvaardigheid eerstejaarsstudenten.

De missie was volbracht.

Journalistieke fraude

Het artikel in de Volkskrant was van het begin af aan niet bedoeld een correct beeld van ons onderzoek te schetsen, maar was bedoeld een negatief beeld te presenteren van ons onderzoek om op die manier de Volkskrant als een kritische krant te afficheren.

Er was sprake van opzettelijk handelen (1), er werd een misleidende voorstelling van zaken gegeven (2), met de bedoeling voordeel te behalen (3), wij zijn als onderzoekers door de misleidende beeldvorming benadeeld (4) en er is sprake van niet correct handelen door het niet vragen en opnemen van weerwoord (5). Volgens de gebruikelijke opvattingen gaat het hier ons inziens om fraude. In dit geval: journalistieke fraude.

De krant die ons beschuldigde van fabuleren en op die manier ons imago als onderzoekers beschadigde, blijkt zelf willens en wetens te fabuleren om op die manier haar imago op te poetsen.

zondag 18 mei 2014

Alles fout of veel fout?

Laatst bijgewerkt: 19/05/2014 15:11

Mik van Es, Anouk van Eerden

In de Sir Edmund van 10 mei laat Ronald Veldhuizen een halve bladzij lang zijn licht schijnen over ons promotie-onderzoek. In dat onderzoek vonden we voor eerstejaars hbo-studenten gemiddeld 81 fouten per A4 (500 woorden). Verder lieten we zien dat een nieuw programma het aantal fouten met 20% verminderde.

In de kop van het artikel is WAAR doorgestreept zodat NIET WAAR! overblijft. Ook de inhoud van het artikel laat weinig ruimte voor twijfel. Een hoogleraar didactiek wordt geciteerd die stelt: 'Het is vreemd dat dit als promotie kan doorgaan.' De onderzoeksmethode zou niet deugen. Het artikel eindigt met het citaat: 'Het [proefschrift] is een schoolvoorbeeld van slecht lezen en selectief winkelen.'

Na al dat verbale geweld ben je als lezer misschien geneigd te concluderen dat de gerapporteerde resultaten en de conclusies uit ons onderzoek niet kloppen.

De twee hoofdstukken (4 en 6) uit ons promotie-onderzoek (http://goo.gl/HNpVpg) met de hiervoor vermelde resultaten zijn door in totaal acht hoogleraren beoordeeld en goedgekeurd. Voordat die twee hoofdstukken de deur uitgingen, hebben we deze zelf uiteraard ook eindeloos gecheckt. Welke kardinale fout hebben wij met zijn tienen collectief gemist, die Veldhuizen er als journalist onmiddellijk uitpikt?

We blijken niet één enkele fout gemaakt te hebben, maar blijken eigenlijk alles fout gedaan te hebben. We hadden te weinig studenten in onze steekproef, de studenten kwamen van te weinig opleidingen. We zouden de allereerste studenten die we konden vinden als steekproef genomen hebben.

Hè...? We hebben toch duidelijk vermeld dat we aselect getrokken hebben. De procedure is zelfs uitvoerig beschreven (p. 93-95)? Heeft Veldhuizen dat niet gelezen?

Ook de methode die we ontwikkeld en gebruikt hebben om fouten objectief te kunnen tellen, is fout volgens Veldhuizen. De methode fout? Maar als onderzoeker mag je toch zelf je methode kiezen? Daarom is de beschrijving van de methode zo belangrijk bij onderzoek. Weet Veldhuizen dat niet? Googelen leert dat Veldhuizen geen beroepsmatige ervaring heeft met wetenschappelijk onderzoek.

Wat is er eigenlijk fout aan onze methode? We hebben rekening gehouden met de lengte van de teksten. Volgens Veldhuizen hadden we dat juist niet moeten doen. Dan hebben echter de studenten die de kortste teksten inleveren de minste fouten. Dat zijn in de praktijk juist de studenten die het slechtste schrijven.

Wacht eens even. Ook dit punt bespreken we uitgebreid in het proefschrift (p. 103-104)? Heeft Veldhuizen dat niet gelezen?

Hoogleraar taalvaardigheidsonderwijs Huub van den Bergh wordt geciteerd. Een paar foutjes meer of minder zouden niet uitmaken. Het gaat erom dat studenten helder formuleren. Dat heeft niets te maken met taalfouten, vindt hij.

In ons onderzoek tonen we aan dat het precies andersom is (p. 227-258). Het oordeel van lezers over de tekst wordt vrijwel volledig bepaald door het aantal fouten per honderd woorden. Fouten blijken juist het verschil te maken. Precies het tegenovergestelde van wat taalbeheersers al decennia beweren.

Ten slotte zouden we het bestaande schrijfonderzoek hebben genegeerd. In ons proefschrift gaan we daar echter uitgebreid op in (p. 28-41). Onze conclusie is niet positief. Het schrijfonderzoek lijkt vaak negatief ingewerkt te hebben op het schrijfonderwijs. Dat de desbetreffende onderzoekers dat niet graag horen, lijkt begrijpelijk.

Kortom, er is veel fout, maar niet in ons proefschrift.

vrijdag 16 mei 2014

Ons 'onware' onderzoek naar schrijfvaardigheid

Mik van Es

Bijgewerkt 21/5/2014 8:22

In de bijlage van de Volkskrant, de Sir Edmund, van 10 mei staat een 'vernietigend' stukje van Ronald Veldhuizen over ons onderzoek (van Anouk van Eerden en mij) naar schrijfvaardigheid.

Vroeger moest je als promovendus je proefschrift verdedigen tegenover de oppositie. Die oppositie bestond uit hoogleraren en hoofddocenten die kritische vragen over je proefschrift mochten stellen. Dat alles gebeurde onder de strakke leiding van de decaan die zorgde dat men onderling niet op de vuist ging. Verder was de tijd beperkt tot precies drie kwartier. Langer had geen zin, want het doel was na te gaan of de promovendus zijn eigen proefschrift redelijk kon toelichten.

Voordat men tot de verdediging werd toegelaten, moest eerst de promotor het proefschrift volledig in orde bevinden. Pas als de promotor het goed vond, ging het vervolgens door naar de beoordelingscommissie. Wanneer ook maar één lid van de beoordelingscommissie niet helemaal tevreden was, moest het proefschrift worden bijgesteld op die punten, waarna het opnieuw naar de beoordelingscommissie ging. Om tot de verdediging te worden toegelaten, was daarmee al met al geen kleinigheid.

Tegenwoordig blijkt er echter nog een extra stap bij deze al vrij zware procedure gekomen te zijn. De promovendus moet nu, als zijn proefschrift ten minste voldoende losmaakt bij het publiek, zijn proefschrift ook nog verdedigen tegenover de pers. Dit werd me duidelijk toen ik de rubriek 'WAAR / NIET WAAR!' las van Ronald Veldhuizen.

Wel, ik zal dat (na overleg met Anouk) proberen, hoewel dat niet eenvoudig is, omdat Ronald kennelijk zelf het proefschrift niet gelezen heeft en zijn informatie vooral ontleend aan wat enkele andere mensen met hun eigen agenda hem verteld hebben over het proefschrift. Ook nogal wat adjectieven zoals rampzalig, nietszeggend, vreemd, niet spectaculair, slecht en selectief maken een verdediging niet eenvoudiger. Hoewel ik dit stukje geschreven heb, heeft Anouk het ook gelezen en is ze het met de door mij aangevoerde punten eens.

Om ieder misverstand over zijn mening te voorkomen, is in de kop van het artikel WAAR doorgestreept, zodat NIET WAAR! overblijft. De lezer is gewaarschuwd: wij zijn niet te vertrouwen!

In ons onderzoek (500 bladzijden) staan veel resultaten en conclusies, maar voor zijn artikel beperkt Ronald zich tot twee. Wij vonden in ons onderzoek bij eerstejaars hbo-studenten (ik beperk me even tot de meest extreme uitkomst) 81 fouten per A4 met 500 woorden. Verder bleek een nieuw ontwikkeld computerprogramma het aantal fouten met 20% te reduceren.

In ons optimisme dachten we dat dit wel interessante resultaten waren, maar Ronald ziet dat anders. In de lead van zijn artikel formuleert hij het zo:

Wat zegt de wetenschap? Foutjes turven is té gemakkelijk.

Nadat wij afgelopen donderdag tot doctor promoveerden, haalden wij opgelucht adem. Na meer dan zes jaar ploeteren, waren we eindelijk erkend als echte wetenschappers, dachten we. De zaterdag daarop lees je in de krant dat je het helemaal mis hebt. Want de Wetenschap heeft via Ronald Veldhuizen haar oordeel geveld: niet waar, onzin! De Sir Edmund raakte ons als een mokerslag. Ik zag Anouk wit wegtrekken, zelf kon ik me nog net op tijd vastgrijpen aan de tafel.

Wat hebben we precies verkeerd gedaan? We blijken niet een één fout gemaakt te hebben, maar een hele reeks, aldus Ronald. Eigenlijk is het gewoon een flut proefschrift. Hij laat hoogleraar didactiek Wouter van Jolingen, die op Twitter vragen stelt over elementaire statistiek, zeggen: 'Door de gebruikte methode wordt het onderzoek nietszeggend. Het is vreemd dat dit als promotie door kan gaan.'

Oei, had ik Wouter, 'professor of science and mathematics education' volgens zijn Twitter-profiel, maar voor de goede lezer in werkelijkheid hoogleraar didactiek van het Freudenthal Instituut, nu maar niet doorgestuurd naar een leerboek elementaire statistiek. Ook dom van ons om zoveel statistiek en psychometrie te gebruiken in het proefschrift. Hebben ze op het Freudenthal Instituut van Wouter een bloedhekel aan, omdat het geen realistisch rekenen is. Het is te wiskundig en bevat te weinig tekst.

Interessant in dit verband is dat de problemen die wij in ons proefschrift signaleren op het gebied van het huidige schrijfonderwijs volgens een mail die ik ontving van Ben Wilbrink (hier) sterk lijken op de problemen met het huidige rekenonderwijs. Ook daar lijken bevlogen onderwijsvernieuwers met het argument dat de wetenschap het allemaal aangetoond had (terwijl dat in werkelijkheid niet zo was), een grote negatieve invloed te hebben uitgeoefend op de kwaliteit van het rekenonderwijs door de invoering van het zogenaamde realistische rekenonderwijs te propageren.

Ook in dat geval werd de basisvaardigheid al bekend verondersteld, terwijl dat in werkelijkheid voor de grote groep leerlingen met een gemiddeld niveau of daaronder, veel te hoog gegrepen was. Precies hetzelfde fenomeen constateerden we in ons proefschrift voor het schrijfonderwijs. Men veronderstelde dat foutloos schrijven al aan het einde van de basisschool beheerst zou worden, zonder de moeite te nemen die veronderstelling empirisch te checken.

Bij de volgens velen 'noodlottige' invoering van het realistische rekenonderwijs (hier) speelde het Freudenthal Instituut een leidende rol. Ik kan me dus voorstellen dat ons onderzoek bij Wouter ook om die reden negatieve associaties opriep. Een foute benadering die begint bij het schrijfonderwijs kan gemakkelijk overslaan naar het realistische rekenonderwijs, heeft hij misschien gedacht.

Dat het inderdaad vrij slecht gesteld is met het onderwijs in basaal rekenen blijkt merkwaardig genoeg ook uit het stuk van Ronald Veldhuizen. Ronald berekent halverwege zijn stukje op hoeveel fouten we uitkomen als we beginnen met 81 fouten en we het foutenaantal met 20% reduceren. Om het nieuwe aantal fouten te vinden kun je natuurlijk 0.80x81 doen. Dat levert afgerond: 65 fouten. Ronald denkt echter volgens zijn tekst uit te komen op 62. Toch een behoorlijk verschil. Kennelijk hebben vandaag de dag dus soms ook wetenschapsjournalisten al moeilijkheden met basaal rekenen.

Maar als we over een paar taalfouten meer of minder niet moeilijk willen doen, willen we dat over een paar rekenfouten meer of minder vermoedelijk ook niet. Per slot van rekening: wat maakt het uit? Wel, bij de constructie van een brug kan dat net het verschil betekenen tussen een brug die blijft staan en een brug die instort. De attitude van een rekenfoutje meer of minder moet kunnen, kan dus veel geld kosten. Voor schrijfvaardigheid geldt echter precies hetzelfde. Want een foute komma of een fout woord in een zakelijk contract kan handen vol geld kosten.

Onze uitspraak over hbo-studenten is gebaseerd op een aselecte steekproef van 20 studenten die afkomstig zijn van een enkele opleiding. Dat zegt niet zoveel, vindt Ronald (of degene die hem over het proefschrift heeft voorgelicht). We hadden net zo goed een dwarsdoorsnee van de Amsterdamse bevolking kunnen proberen te krijgen door de eerste 10 mensen te turven die een willekeurige HEMA binnenwandelen.

Het is me een beetje duister wat Ronald precies met die opmerking bedoelt. Om te beginnen hebben we niet de eerste 10 studenten genomen of de eerste 20, maar hebben we steeds aselecte steekproeven getrokken. De exacte manier waarop die steekproeven getrokken zijn, staat zelfs in het proefschrift beschreven. Omdat Ronald dat niet wist, denken we dat hij het hele proefschrift nooit ingezien heeft, hoewel het gratis te downloaden is (http://goo.gl/HNpVpg).

Ten tweede vraag ik me af of die methode om bijvoorbeeld de eerste 20 mensen die een bepaalde HEMA ingaan, inderdaad zo'n vreselijk vertekend beeld zou geven. Stel dat je een globaal idee wilt krijgen van de lengte van Nederlanders. Je gaat bij een HEMA staan en meet de eerste 20. Strikt genomen is dat natuurlijk absoluut geen aselecte en dus geen representatieve steekproef. Maar is aangetoond dat je op die manier er vreselijk ver naast komt te zitten? Waar dan en door wie? Kortom, ik denk dat Ronald dit helemaal niet heeft uitgeprobeerd en uit zijn nek zit te kletsen.

Kijk, het is niet zo dat we zeggen dat we nu precies weten hoeveel bevestigde fouten per A4 (500 woorden) de gemiddelde eerstejaars Nederlandse hbo-student maakt. Allereerst zitten we met een ruim betrouwbaarheidsinterval van zeg -20 of +20. Het kan dus door de steekproef- onbetrouwbaarheid ook 61 zijn in het beste geval of 101 in het ergste geval. Ten tweede zal het per studierichting natuurlijk een beetje anders kunnen liggen en zelfs per stad. Maar als we in Groningen 81 vinden, zou het heel vreemd zijn als eerstejaars hbo-studenten in Den Haag onder de 40 zouden scoren. Onze uitkomsten zijn dus een globale indicatie voor hoe het vermoedelijk in Nederland met de schrijfvaardigheid van eerstejaars is gesteld. Zodra we meer en betere gegevens hebben, gebruiken we die natuurlijk.

Een tweede probleem dat Ronald ziet met ons proefschrift-onderzoek is dat we volgens hem een foute methode gebruikt hebben om het aantal fouten te corrigeren voor de lengte van de tekst. Wij werken namelijk met het aantal fouten per 500 woorden en niet met het aantal fouten dat een student in totaal in zijn tekst gemaakt heeft.

De reden om dat te doen, hebben we uitvoerig in het proefschrift beschreven. Ronald is daar echter niet mee op de hoogte en daardoor denken we opnieuw dat hij het hele proefschrift nooit heeft ingezien en volledig is afgegaan op wat bepaalde lieden met hun eigen agenda hem influisterden.

De reden om te corrigeren voor de lengte van de tekst is heel simpel. Slecht schrijvende studenten schrijven heel moeizaam en daardoor heel kort. Doordat ze weinig tekst produceren, hebben ze in totaal weinig fouten. Een student die gemakkelijk schrijft, schrijft ook veel en doordat hij veel schrijft, maakt hij uiteindelijk in totaal meer fouten in zijn tekst dan een slecht schrijvende student.

Doordat Ronald het proefschrift nooit gelezen heeft, vermeldt hij de volgende passage:

En laat de kortste teksten nou het hoogste aantal fouten bevatten.

In werkelijkheid bevatten de kortste teksten echter het kleinste aantal fouten. Hij beweert hier dus iets dat volstrekt niet klopt en als hij het proefschrift gelezen had, zou hij dat weten.

De wetenschapsredactie van de Volkskrant was zo vriendelijk me dit punt 5 minuten voordat de verdediging begon, voor te leggen. Ik heb toen een klein experiment voorgesteld. Selecteer op die manier de nieuwe journalisten voor de Volkskrant en kijk daarna wat de lezers vinden. Op basis van ons proefschrift-onderzoek valt de uitkomst namelijk volledig te voorspellen. De lezers zullen dat niet leuk vinden al die fouten in hun krant.

Dit voorstel voor een klein empirisch onderzoek werd door de chef Wetenschap opgevat als een persoonlijke aanval van mij op hem. Ik vond dit moeilijk te begrijpen. Kennelijk was mijn boodschap dat deze kritiek op onze methode onzin was, niet wat hij wilde horen.

Er is echter nog een ander punt dat de kritiek van Ronald op onze methode uiterst merkwaardig maakt. Bij wetenschappelijk onderzoek is de methode vrij. De onderzoeker kan dus zelf bepalen welke methode hij precies wil kiezen. Wat belangrijk is, is dat de methode goed beschreven wordt, zodat een andere onderzoeker het onderzoek kan herhalen.

Wanneer je gaat stellen dat we de verkeerde methode gebruikten, geef je aan dat je met dat basisprincipe van onderzoek doen niet op de hoogte bent. Ik ben Ronald toen eens gaan googelen en hij blijkt dan inderdaad nooit echt onderzoek gedaan te hebben of een kwalificatie op dat gebied te hebben. Dat sluit ook aan, bij de tekst in de lead: Wat zegt de wetenschap? De wetenschap zegt namelijk helemaal niets. Het zijn hoogstens individuele wetenschappers die iets zeggen en die blijken er in de praktijk nog wel eens naast te zitten.

Ronald twitterde hierover dat ik hiermee op de persoon speelde. Volgens mij klopt dat niet. Het punt waar het om gaat, is dat je kennis van zaken moeten hebben. Wanneer iemand zonder formele opleiding prima onderzoek doet, is er geen enkele reden om daar bezwaar tegen te maken. Maar wanneer iemand zonder formele opleiding vergaande uitspraken over het onderzoek van iemand anders meent te moeten doen en die uitspraken blijken vervolgens een groot onbenul te verraden op dat specifieke gebied, dan is er volgens mij een probleem. Er blijkt dan namelijk dat men zijn huiswerk niet gedaan heeft.

Een derde punt dat Ronald aanvoert als reden waarom ons onderzoek niet zou deugen, is dat ons trainingsprogramma niet bepaald spectaculair zou zijn. Ons trainingsprogramma brengt in 20 uur het aantal fouten met 20% terug. Ronald schrijft:

Het is niet bepaald spectaculair. (. . .) Een vooruitgang misschien, maar niet iets om over naar huis te schrijven.

Ons trainingsprogramma heeft in statistische termen een effect van meer dan 1 standaarddeviatie. Dat geldt in de sociale wetenschappen als een uiterst groot effect voor een trainingsprogramma. Dus opnieuw: dit lijken me toch zaken die je als wetenschapsjournalist behoort te weten.

Vervolgens wordt hoogleraar taalvaardigheidsonderwijs Huub van den Bergh aan het woord gelaten. Het maakt niet uit of studenten wat meer of minder fouten in een tekst maken. 'Schrijven houdt in dat je je gedachten helder op papier weet te formuleren. Dat is een andere vaardigheid, die niet te vatten is in makkelijk te tellen taalfouten.' Dat is inderdaad het standpunt dat taalbeheersers al decennia lang verkondigen.

In ons onderzoek tonen wij echter aan dat beide vaardigheden vrijwel volledig samenvallen. Het oordeel van beoordelaars over teksten blijkt vrijwel volledig bepaald te worden door het aantal fouten per 500 woorden, hoewel ze zich dat normaal volstrekt niet realiseren. Om volstrekt zeker te zijn van onze zaak hebben we dit ook nog eens vastgesteld met een experiment zodat er geen enkele twijfel mogelijk is over de causale aard van het verband. Wat de taalbeheersers decennia lang beweerd hebben, blijkt bij toetsing aan de empirie onjuist te zijn.

Het lijkt begrijpelijk dat hoogleraren taalbeheersing die decennia het tegenovergestelde beweerd hebben, dat niet leuk vinden om te horen. De opwinding over ons proefschrift in bepaalde kringen lijkt daarmee wel verklaarbaar.

Huub stelt ook nog dat we al jaren weten hoe het schrijfonderwijs beter kan. Hij bedoelt daarmee, dat hij dat wel denkt te weten. Als zijn methode echt werkt, waar we niet bij voorbaat van overtuigd zijn, zouden we dat graag eerst aangetoond zien via een fatsoenlijk uitgevoerd experiment met een controlegroep en een voor- en nameting. Hoe dat precies kan en moet wordt in ons proefschrift uiteengezet (hoofdstuk 3).

Op het einde van het stukje wordt dan nog gesteld, dat het lijkt alsof we al het bestaande schrijfonderzoek genegeerd hebben. Ons proefschrift zou 'een schoolvoorbeeld van slecht lezen en selectief winkelen' zijn volgens Huub.

In werkelijkheid besteden we in ons proefschrift een groot aantal bladzijden aan het bestaande schrijfonderzoek (p. 28-41). Onze conclusie is echter niet positief. Onderzoekers deden vaak vergaande uitspraken op basis van te weinig en te gebrekkig onderzoek. Uitspraken zijn vaak niet 'evidence-based,' maar projecties van ideeën die men heeft over hoe men denkt dat het is. Het schrijfonderzoek heeft mogelijk daardoor een negatieve invloed uitgeoefend op docenten en het oefenen met taal en schrijven in de klas, is onze voorzichtige conclusie.

Terug naar de vraag in de lead: wat zegt de wetenschap? Volgens Ronald zegt de wetenschap dat foutjes turven té makkelijk is. Ons onderzoek laat via een experiment zien dat het aantal fouten per 500 woorden het oordeel van de lezer in zeer sterke mate beïnvloedt. Foutjes turven is dus wat er in ieder geval ook gedaan moet worden in het basale schrijfonderwijs, mits we corrigeren voor de lengte van de tekst.

donderdag 1 mei 2014

'Elementaire statistiek, mijn beste Watson'

Ons onderzoek gaat over basale schrijfvaardigheid. Uit ons onderzoek blijkt dat het daar niet zo best mee is gesteld.

Uit de reacties op ons onderzoek van journalisten, maar ook van collega wetenschappers, blijkt dat het met de kennis van de elementaire statistiek vaak ook niet al te best is gesteld.

Wat is het probleem? In ons onderzoek naar het aantal fouten dat studenten maken in hun werk gebruiken we twee relatief kleine steekproeven. De steekproef van WO-studenten telt slechts 10 studenten. De HBO-steekproef telt 20 studenten. Beide steekproeven zijn aselect getrokken uit grotere groepen studenten. Belangrijk daarbij was dat het om meerdere 'klassen' eerstejaars ging en dat die 'klassen' compleet waren, dus niet door ons voorgeselecteerd.

Het grote probleem voor mensen blijkt nu te zijn, dat ze niet begrijpen dat je op basis van een kleine, aselect getrokken steekproef iets kunt zeggen over het aantal fouten dat eerstejaars studenten in Nederland in doorsnee maken. 'Hoe kan zo kleine steekproef nu representatief zijn?', zeggen ze.

Als docent statistiek moet je dan even heel diep ademhalen. Helemaal omdat het vaak om mensen gaat die eigenlijk toch wel beter zouden moeten weten.

Kennis van de statistiek krijgen kinderen tegenwoordig al in het VWO. Daarna wordt het op de universiteit soms nog stevig overgedaan. Je zou dus denken dat er wel een bepaalde basiskennis in de populatie aanwezig zou zijn. In de praktijk lijkt dat echter sterk tegen te vallen.

Goed. Laat ik proberen het uit te leggen. De grootte van de steekproef zegt niets over de representativiteit. Punt. Een steekproef van 1 miljoen Nederlanders hoeft dus helemaal niet representatief te zijn.

Een bekend voorbeeld van een grote, niet-representatieve steekproef werd geleverd door Shere Hite. Door via een tijdschrift een vragenlijst te verspreiden over seksualiteit, reageerden vooral vrouwen die zich door dat onderwerp getriggerd voelden. Het resultaat was een zeer grote, zwaar geselecteerde steekproef die daardoor zeer misleidende uitkomsten gaf.

Om een representatieve steekproef te krijgen, is er maar één erkende methode. Dat is zo willekeurig mogelijk uit de populatie trekken. Ieder lid van de populatie moet dus een even grote kans hebben in de steekproef terecht te komen. Alleen op die manier mag je hopen dat je resulterende steekproef representatief is. Ik zeg 'hopen', omdat in deze procedure het toeval dus een belangrijke rol speelt. Door toeval kan je steekproef iets meer of iets minder representatief uitvallen.

Heel vervelend, maar niet erg. Dat toeval kunnen we namelijk incalculeren. Met toeval kunnen we rekenen. Nu kom ik bij het tweede punt. De grootte van de steekproef en de nauwkeurigheid of de betrouwbaarheid.

Een heel grote, aselect getrokken steekproef is natuurlijk betrouwbaarder dan een kleine steekproef. Dat klopt. Daar is ook een simpele formule voor. De standaarddeviatie van de steekproef gedeeld door de vierkantswortel van het aantal levert de standaardfout. De standaardfout is ongeveer zoveel als de gemiddelde verwachte afwijking.

In ons geval ging het om twee kleine steekproeven. De WO-studenten scoorden 42 fouten. De standaardfout blijkt 5 te zijn. Dat betekent in de praktijk dat als we heel veel pech hadden, we misschien wel 10 fouten van die 42 moeten aftrekken of er 10 bij op moeten tellen. Als ik er 10 aftrek, kom ik uit op 32. Lijkt me nog steeds belangrijk meer dan laten we zeggen 10. Ervan uitgaande dat iemand die doorstroomt naar het WO aan het einde van de basisschool 10 fouten in een A4 van 500 woorden zou mogen maken.

Voor de HBO-steekproef kunnen we een soortgelijke redenering opzetten. We vinden daar 81 fouten per A4 van 500 woorden. De standaardfout is daar 9, zeg voor het gemak maar 10. Wanneer we heel veel pech hadden, zouden we dan misschien 20 hoger of lager uitkomen. Dat betekent dat zelfs in het meest optimistische scenario we nog steeds 61 fouten zouden vinden. Dat lijkt me toch iets meer dan de 10 fouten per A4 die we zonet nog acceptabel vonden.

Conclusie: hoe je het ook draait of keert, eerstejaars studenten in het hoger onderwijs maken veel meer fouten in hun schriftelijk werk dan ze zouden moeten maken. Kennelijk functioneert het voorafgaande onderwijs op dit punt dus kennelijk niet goed.

Ik ben voor het gemak uitgegaan van twee keer de standaardfout om het simpel te houden. Ik denk dat dat terecht is voor mensen die het verschil niet begrijpen tussen steekproef-grootte en steekproef-selectie (steekproef representativiteit). Maar mensen die het betrouwbaarheidsinterval precies willen koppelen aan een bepaalde kans moet even onder die term in hun statistiekboek kijken of op de Wikipedia.

Een punt dat wel klopt, is dat we eerstejaars studenten van bepaalde studierichtingen moesten nemen. Voor andere studierichtingen kan het weer net ietsje anders liggen. Ook hebben we Groningse studenten gebruikt, dus in Amsterdam zou het theoretisch totaal anders kunnen liggen. Verder is onze steekproef al weer enkele jaren oud, dus het onderwijs zou opeens gigantisch verbeterd kunnen zijn in de tussentijd. Allemaal waar, maar wij doen empirisch onderzoek. Wij nemen dus waar aan een klein aantal gevallen en proberen dan voorzichtig te generaliseren. Als iemand een betere methode weet, houden alle empirische wetenschappers zich aanbevolen.

Samengevat: een steekproef moet in de eerste plaats aselect getrokken zijn (met zo min mogelijk selectie). De grootte van de steekproef is niet zo belangrijk, omdat we die via de standaardfout kunnen vertalen in een betrouwbaarheidsinterval.

Toevoeging

Verder is het natuurlijk niet zo dat deze resultaten alleen staan. Allereerst zijn er heel veel publicaties over een tekortschietende schrijfvaardigheid bij eerstejaars studenten. Ten tweede worden de resultaten van het foutenonderzoek bevestigd bij het TAVAN-effectonderzoek. Vervolgens hebben we dan ook nog het fouteneffect-onderzoek dat ook weer soortgelijke resultaten oplevert.

Deze toevoeging heeft echter niets te maken met de representativiteit en betrouwbaarheid van een steekproef. Het is vooral een algemeen principe. Als alle natuurkundigen denken dat onderzoek en de theorie uitwijzen dat de lichtsnelheid de grootst mogelijke snelheid is en je vindt bij een meting het tegenovergestelde, ga je niet onmiddellijk denken dat iedereen zich vergist heeft, maar dat jezelf misschien een foutje heb gemaakt bij het meten. Je gaat dan je hele procedure nog eens checken en zo nodig het hele ondezoek herhalen.