Meten en maximaliseren van basale schrijfvaardigheid: Ons 'onware' onderzoek naar schrijfvaardigheid

Mik van Es

Bijgewerkt 21/5/2014 8:22

In de bijlage van de Volkskrant, de Sir Edmund, van 10 mei staat een 'vernietigend' stukje van Ronald Veldhuizen over ons onderzoek (van Anouk van Eerden en mij) naar schrijfvaardigheid.

Vroeger moest je als promovendus je proefschrift verdedigen tegenover de oppositie. Die oppositie bestond uit hoogleraren en hoofddocenten die kritische vragen over je proefschrift mochten stellen. Dat alles gebeurde onder de strakke leiding van de decaan die zorgde dat men onderling niet op de vuist ging. Verder was de tijd beperkt tot precies drie kwartier. Langer had geen zin, want het doel was na te gaan of de promovendus zijn eigen proefschrift redelijk kon toelichten.

Voordat men tot de verdediging werd toegelaten, moest eerst de promotor het proefschrift volledig in orde bevinden. Pas als de promotor het goed vond, ging het vervolgens door naar de beoordelingscommissie. Wanneer ook maar één lid van de beoordelingscommissie niet helemaal tevreden was, moest het proefschrift worden bijgesteld op die punten, waarna het opnieuw naar de beoordelingscommissie ging. Om tot de verdediging te worden toegelaten, was daarmee al met al geen kleinigheid.

Tegenwoordig blijkt er echter nog een extra stap bij deze al vrij zware procedure gekomen te zijn. De promovendus moet nu, als zijn proefschrift ten minste voldoende losmaakt bij het publiek, zijn proefschrift ook nog verdedigen tegenover de pers. Dit werd me duidelijk toen ik de rubriek 'WAAR / NIET WAAR!' las van Ronald Veldhuizen.

Wel, ik zal dat (na overleg met Anouk) proberen, hoewel dat niet eenvoudig is, omdat Ronald kennelijk zelf het proefschrift niet gelezen heeft en zijn informatie vooral ontleend aan wat enkele andere mensen met hun eigen agenda hem verteld hebben over het proefschrift. Ook nogal wat adjectieven zoals rampzalig, nietszeggend, vreemd, niet spectaculair, slecht en selectief maken een verdediging niet eenvoudiger. Hoewel ik dit stukje geschreven heb, heeft Anouk het ook gelezen en is ze het met de door mij aangevoerde punten eens.

Om ieder misverstand over zijn mening te voorkomen, is in de kop van het artikel WAAR doorgestreept, zodat NIET WAAR! overblijft. De lezer is gewaarschuwd: wij zijn niet te vertrouwen!

In ons onderzoek (500 bladzijden) staan veel resultaten en conclusies, maar voor zijn artikel beperkt Ronald zich tot twee. Wij vonden in ons onderzoek bij eerstejaars hbo-studenten (ik beperk me even tot de meest extreme uitkomst) 81 fouten per A4 met 500 woorden. Verder bleek een nieuw ontwikkeld computerprogramma het aantal fouten met 20% te reduceren.

In ons optimisme dachten we dat dit wel interessante resultaten waren, maar Ronald ziet dat anders. In de lead van zijn artikel formuleert hij het zo:

Wat zegt de wetenschap? Foutjes turven is té gemakkelijk.

Nadat wij afgelopen donderdag tot doctor promoveerden, haalden wij opgelucht adem. Na meer dan zes jaar ploeteren, waren we eindelijk erkend als echte wetenschappers, dachten we. De zaterdag daarop lees je in de krant dat je het helemaal mis hebt. Want de Wetenschap heeft via Ronald Veldhuizen haar oordeel geveld: niet waar, onzin! De Sir Edmund raakte ons als een mokerslag. Ik zag Anouk wit wegtrekken, zelf kon ik me nog net op tijd vastgrijpen aan de tafel.

Wat hebben we precies verkeerd gedaan? We blijken niet een één fout gemaakt te hebben, maar een hele reeks, aldus Ronald. Eigenlijk is het gewoon een flut proefschrift. Hij laat hoogleraar didactiek Wouter van Jolingen, die op Twitter vragen stelt over elementaire statistiek, zeggen: 'Door de gebruikte methode wordt het onderzoek nietszeggend. Het is vreemd dat dit als promotie door kan gaan.'

Oei, had ik Wouter, 'professor of science and mathematics education' volgens zijn Twitter-profiel, maar voor de goede lezer in werkelijkheid hoogleraar didactiek van het Freudenthal Instituut, nu maar niet doorgestuurd naar een leerboek elementaire statistiek. Ook dom van ons om zoveel statistiek en psychometrie te gebruiken in het proefschrift. Hebben ze op het Freudenthal Instituut van Wouter een bloedhekel aan, omdat het geen realistisch rekenen is. Het is te wiskundig en bevat te weinig tekst.

Interessant in dit verband is dat de problemen die wij in ons proefschrift signaleren op het gebied van het huidige schrijfonderwijs volgens een mail die ik ontving van Ben Wilbrink (hier) sterk lijken op de problemen met het huidige rekenonderwijs. Ook daar lijken bevlogen onderwijsvernieuwers met het argument dat de wetenschap het allemaal aangetoond had (terwijl dat in werkelijkheid niet zo was), een grote negatieve invloed te hebben uitgeoefend op de kwaliteit van het rekenonderwijs door de invoering van het zogenaamde realistische rekenonderwijs te propageren.

Ook in dat geval werd de basisvaardigheid al bekend verondersteld, terwijl dat in werkelijkheid voor de grote groep leerlingen met een gemiddeld niveau of daaronder, veel te hoog gegrepen was. Precies hetzelfde fenomeen constateerden we in ons proefschrift voor het schrijfonderwijs. Men veronderstelde dat foutloos schrijven al aan het einde van de basisschool beheerst zou worden, zonder de moeite te nemen die veronderstelling empirisch te checken.

Bij de volgens velen 'noodlottige' invoering van het realistische rekenonderwijs (hier) speelde het Freudenthal Instituut een leidende rol. Ik kan me dus voorstellen dat ons onderzoek bij Wouter ook om die reden negatieve associaties opriep. Een foute benadering die begint bij het schrijfonderwijs kan gemakkelijk overslaan naar het realistische rekenonderwijs, heeft hij misschien gedacht.

Dat het inderdaad vrij slecht gesteld is met het onderwijs in basaal rekenen blijkt merkwaardig genoeg ook uit het stuk van Ronald Veldhuizen. Ronald berekent halverwege zijn stukje op hoeveel fouten we uitkomen als we beginnen met 81 fouten en we het foutenaantal met 20% reduceren. Om het nieuwe aantal fouten te vinden kun je natuurlijk 0.80x81 doen. Dat levert afgerond: 65 fouten. Ronald denkt echter volgens zijn tekst uit te komen op 62. Toch een behoorlijk verschil. Kennelijk hebben vandaag de dag dus soms ook wetenschapsjournalisten al moeilijkheden met basaal rekenen.

Maar als we over een paar taalfouten meer of minder niet moeilijk willen doen, willen we dat over een paar rekenfouten meer of minder vermoedelijk ook niet. Per slot van rekening: wat maakt het uit? Wel, bij de constructie van een brug kan dat net het verschil betekenen tussen een brug die blijft staan en een brug die instort. De attitude van een rekenfoutje meer of minder moet kunnen, kan dus veel geld kosten. Voor schrijfvaardigheid geldt echter precies hetzelfde. Want een foute komma of een fout woord in een zakelijk contract kan handen vol geld kosten.

Onze uitspraak over hbo-studenten is gebaseerd op een aselecte steekproef van 20 studenten die afkomstig zijn van een enkele opleiding. Dat zegt niet zoveel, vindt Ronald (of degene die hem over het proefschrift heeft voorgelicht). We hadden net zo goed een dwarsdoorsnee van de Amsterdamse bevolking kunnen proberen te krijgen door de eerste 10 mensen te turven die een willekeurige HEMA binnenwandelen.

Het is me een beetje duister wat Ronald precies met die opmerking bedoelt. Om te beginnen hebben we niet de eerste 10 studenten genomen of de eerste 20, maar hebben we steeds aselecte steekproeven getrokken. De exacte manier waarop die steekproeven getrokken zijn, staat zelfs in het proefschrift beschreven. Omdat Ronald dat niet wist, denken we dat hij het hele proefschrift nooit ingezien heeft, hoewel het gratis te downloaden is (http://goo.gl/HNpVpg).

Ten tweede vraag ik me af of die methode om bijvoorbeeld de eerste 20 mensen die een bepaalde HEMA ingaan, inderdaad zo'n vreselijk vertekend beeld zou geven. Stel dat je een globaal idee wilt krijgen van de lengte van Nederlanders. Je gaat bij een HEMA staan en meet de eerste 20. Strikt genomen is dat natuurlijk absoluut geen aselecte en dus geen representatieve steekproef. Maar is aangetoond dat je op die manier er vreselijk ver naast komt te zitten? Waar dan en door wie? Kortom, ik denk dat Ronald dit helemaal niet heeft uitgeprobeerd en uit zijn nek zit te kletsen.

Kijk, het is niet zo dat we zeggen dat we nu precies weten hoeveel bevestigde fouten per A4 (500 woorden) de gemiddelde eerstejaars Nederlandse hbo-student maakt. Allereerst zitten we met een ruim betrouwbaarheidsinterval van zeg -20 of +20. Het kan dus door de steekproef- onbetrouwbaarheid ook 61 zijn in het beste geval of 101 in het ergste geval. Ten tweede zal het per studierichting natuurlijk een beetje anders kunnen liggen en zelfs per stad. Maar als we in Groningen 81 vinden, zou het heel vreemd zijn als eerstejaars hbo-studenten in Den Haag onder de 40 zouden scoren. Onze uitkomsten zijn dus een globale indicatie voor hoe het vermoedelijk in Nederland met de schrijfvaardigheid van eerstejaars is gesteld. Zodra we meer en betere gegevens hebben, gebruiken we die natuurlijk.

Een tweede probleem dat Ronald ziet met ons proefschrift-onderzoek is dat we volgens hem een foute methode gebruikt hebben om het aantal fouten te corrigeren voor de lengte van de tekst. Wij werken namelijk met het aantal fouten per 500 woorden en niet met het aantal fouten dat een student in totaal in zijn tekst gemaakt heeft.

De reden om dat te doen, hebben we uitvoerig in het proefschrift beschreven. Ronald is daar echter niet mee op de hoogte en daardoor denken we opnieuw dat hij het hele proefschrift nooit heeft ingezien en volledig is afgegaan op wat bepaalde lieden met hun eigen agenda hem influisterden.

De reden om te corrigeren voor de lengte van de tekst is heel simpel. Slecht schrijvende studenten schrijven heel moeizaam en daardoor heel kort. Doordat ze weinig tekst produceren, hebben ze in totaal weinig fouten. Een student die gemakkelijk schrijft, schrijft ook veel en doordat hij veel schrijft, maakt hij uiteindelijk in totaal meer fouten in zijn tekst dan een slecht schrijvende student.

Doordat Ronald het proefschrift nooit gelezen heeft, vermeldt hij de volgende passage:

En laat de kortste teksten nou het hoogste aantal fouten bevatten.

In werkelijkheid bevatten de kortste teksten echter het kleinste aantal fouten. Hij beweert hier dus iets dat volstrekt niet klopt en als hij het proefschrift gelezen had, zou hij dat weten.

De wetenschapsredactie van de Volkskrant was zo vriendelijk me dit punt 5 minuten voordat de verdediging begon, voor te leggen. Ik heb toen een klein experiment voorgesteld. Selecteer op die manier de nieuwe journalisten voor de Volkskrant en kijk daarna wat de lezers vinden. Op basis van ons proefschrift-onderzoek valt de uitkomst namelijk volledig te voorspellen. De lezers zullen dat niet leuk vinden al die fouten in hun krant.

Dit voorstel voor een klein empirisch onderzoek werd door de chef Wetenschap opgevat als een persoonlijke aanval van mij op hem. Ik vond dit moeilijk te begrijpen. Kennelijk was mijn boodschap dat deze kritiek op onze methode onzin was, niet wat hij wilde horen.

Er is echter nog een ander punt dat de kritiek van Ronald op onze methode uiterst merkwaardig maakt. Bij wetenschappelijk onderzoek is de methode vrij. De onderzoeker kan dus zelf bepalen welke methode hij precies wil kiezen. Wat belangrijk is, is dat de methode goed beschreven wordt, zodat een andere onderzoeker het onderzoek kan herhalen.

Wanneer je gaat stellen dat we de verkeerde methode gebruikten, geef je aan dat je met dat basisprincipe van onderzoek doen niet op de hoogte bent. Ik ben Ronald toen eens gaan googelen en hij blijkt dan inderdaad nooit echt onderzoek gedaan te hebben of een kwalificatie op dat gebied te hebben. Dat sluit ook aan, bij de tekst in de lead: Wat zegt de wetenschap? De wetenschap zegt namelijk helemaal niets. Het zijn hoogstens individuele wetenschappers die iets zeggen en die blijken er in de praktijk nog wel eens naast te zitten.

Ronald twitterde hierover dat ik hiermee op de persoon speelde. Volgens mij klopt dat niet. Het punt waar het om gaat, is dat je kennis van zaken moeten hebben. Wanneer iemand zonder formele opleiding prima onderzoek doet, is er geen enkele reden om daar bezwaar tegen te maken. Maar wanneer iemand zonder formele opleiding vergaande uitspraken over het onderzoek van iemand anders meent te moeten doen en die uitspraken blijken vervolgens een groot onbenul te verraden op dat specifieke gebied, dan is er volgens mij een probleem. Er blijkt dan namelijk dat men zijn huiswerk niet gedaan heeft.

Een derde punt dat Ronald aanvoert als reden waarom ons onderzoek niet zou deugen, is dat ons trainingsprogramma niet bepaald spectaculair zou zijn. Ons trainingsprogramma brengt in 20 uur het aantal fouten met 20% terug. Ronald schrijft:

Het is niet bepaald spectaculair. (. . .) Een vooruitgang misschien, maar niet iets om over naar huis te schrijven.

Ons trainingsprogramma heeft in statistische termen een effect van meer dan 1 standaarddeviatie. Dat geldt in de sociale wetenschappen als een uiterst groot effect voor een trainingsprogramma. Dus opnieuw: dit lijken me toch zaken die je als wetenschapsjournalist behoort te weten.

Vervolgens wordt hoogleraar taalvaardigheidsonderwijs Huub van den Bergh aan het woord gelaten. Het maakt niet uit of studenten wat meer of minder fouten in een tekst maken. 'Schrijven houdt in dat je je gedachten helder op papier weet te formuleren. Dat is een andere vaardigheid, die niet te vatten is in makkelijk te tellen taalfouten.' Dat is inderdaad het standpunt dat taalbeheersers al decennia lang verkondigen.

In ons onderzoek tonen wij echter aan dat beide vaardigheden vrijwel volledig samenvallen. Het oordeel van beoordelaars over teksten blijkt vrijwel volledig bepaald te worden door het aantal fouten per 500 woorden, hoewel ze zich dat normaal volstrekt niet realiseren. Om volstrekt zeker te zijn van onze zaak hebben we dit ook nog eens vastgesteld met een experiment zodat er geen enkele twijfel mogelijk is over de causale aard van het verband. Wat de taalbeheersers decennia lang beweerd hebben, blijkt bij toetsing aan de empirie onjuist te zijn.

Het lijkt begrijpelijk dat hoogleraren taalbeheersing die decennia het tegenovergestelde beweerd hebben, dat niet leuk vinden om te horen. De opwinding over ons proefschrift in bepaalde kringen lijkt daarmee wel verklaarbaar.

Huub stelt ook nog dat we al jaren weten hoe het schrijfonderwijs beter kan. Hij bedoelt daarmee, dat hij dat wel denkt te weten. Als zijn methode echt werkt, waar we niet bij voorbaat van overtuigd zijn, zouden we dat graag eerst aangetoond zien via een fatsoenlijk uitgevoerd experiment met een controlegroep en een voor- en nameting. Hoe dat precies kan en moet wordt in ons proefschrift uiteengezet (hoofdstuk 3).

Op het einde van het stukje wordt dan nog gesteld, dat het lijkt alsof we al het bestaande schrijfonderzoek genegeerd hebben. Ons proefschrift zou 'een schoolvoorbeeld van slecht lezen en selectief winkelen' zijn volgens Huub.

In werkelijkheid besteden we in ons proefschrift een groot aantal bladzijden aan het bestaande schrijfonderzoek (p. 28-41). Onze conclusie is echter niet positief. Onderzoekers deden vaak vergaande uitspraken op basis van te weinig en te gebrekkig onderzoek. Uitspraken zijn vaak niet 'evidence-based,' maar projecties van ideeën die men heeft over hoe men denkt dat het is. Het schrijfonderzoek heeft mogelijk daardoor een negatieve invloed uitgeoefend op docenten en het oefenen met taal en schrijven in de klas, is onze voorzichtige conclusie.

Terug naar de vraag in de lead: wat zegt de wetenschap? Volgens Ronald zegt de wetenschap dat foutjes turven té makkelijk is. Ons onderzoek laat via een experiment zien dat het aantal fouten per 500 woorden het oordeel van de lezer in zeer sterke mate beïnvloedt. Foutjes turven is dus wat er in ieder geval ook gedaan moet worden in het basale schrijfonderwijs, mits we corrigeren voor de lengte van de tekst.

Meten en maximaliseren van basale schrijfvaardigheid

vrijdag 16 mei 2014

Ons 'onware' onderzoek naar schrijfvaardigheid

Bijgewerkt 21/5/2014 8:22

1 opmerking: