Kansenongelijkheid, Onderwijsraad, Onderzoek, Schooladvies, Toetsen

‘Het gaat om eerlijke kansen en niet om gelijke kansen.’ Waarom de Onderwijsraad de kern mist. (deel 1)

foto Gerard Wegman

In dit eerste deel van zijn bijdrage maakt toets- en testexpert Ben Wilbrink duidelijk waarom de voorstellen van de onderwijsraad weinig soelaas bieden als het gaat het verbeteren van de onderwijskansen van grote groepen leerlingen. Komend weekend laat hij in het tweede deel zien wat er aan te doen valt.

Door Ben Wilbrink

“De bewindslieden van het ministerie van Onderwijs, Cultuur en Wetenschap hebben de raad daarom gevraagd nader in te gaan op differentiatie en selectie in het onderwijsstelsel in het licht van kansengelijkheid en onderwijskwaliteit. Dit advies geeft antwoord op de vraag: hoe kunnen differentiatie en selectie in het onderwijsstelsel beter recht doen aan de capaciteiten van alle leerlingen?”: ‘Gelijke kansen bij gelijke capaciteiten’ Onderwijsraad (april 2021)

Het is bizar dat de raad kansengelijkheid vertaalt als ‘recht doen aan de capaciteiten van alle leerlingen’. 

Het probleem zit hem in dat ‘recht doen aan capaciteiten‘ als uitgangspunt. Daarmee zijn de eerlijke kansen per definitie verkeken, vervlogen en verraden. Leerlingen beginnen immers aan het onderwijs met door achtergrond al verschillende ‘capaciteiten’, daaraan ‘recht doen‘ betekent voordeel geven aan wie van huis uit al bevoorrecht is. Dus die verschillen zullen in het onderwijs onvermijdelijk groter worden. 

Is dit nu een rare duiding van mij?  Ik dacht het niet, omdat er geen enkele passage in het advies is te vinden die mij gerust kan stellen dat ik het helemaal verkeerd zie. 

Dit advies van de Onderwijsraad ademt van voor naar achter de sfeer van de 19e eeuw, met zijn recht doen aan capaciteiten, optimale ontplooiingskansen bieden in een stelsel dat in het voortgezet onderwijs nog alle kenmerken van het 19e-eeuwse standenonderwijs draagt. Ik moet hier iets mee en heb na ampel beraad en uitvoerige studie het volgende plan opgevat.  

Ik begin met een soort ‘position paper’ waarin ik mijn uitgangspunten schets zonder daar dieper op in te gaan, want dat zou evenzovele blogs vragen. Mijn betoog beperkt zich vervolgens inhoudelijk tot de eindtoets en zijn plaats in het onderwijs. Daar ligt ook mijn expertise: op het terrein van differentiëren, selecteren en alloceren. Dat kan nog wat worden. Tegenover het beeld van de ‘objectieve toets’ dat veel politici en sociologen koesteren, zet ik het beeld van de gemankeerde toets die oneerlijk is en bovendien het falen van het onderwijs maskeert. Geen wonder dat het met eerlijke kansen niet goed gaat in dit land. 

Ik hang mijn betoog op aan een belangrijk document dat sinds kort vrij toegankelijk is: de AERA, APA, NCME (2014). Standards for Educational and Psychological Testing

AERA: American Educational Research Association.

APA: American Psychological Association.

NCME: National Council on Measurement in Education. 

Deze Standards zijn niet de alfa en omega van kwaliteitseisen die aan het gebruik van tests en examens zijn te stellen, maar ze komen een heel eind, en zijn daarin internationaal toonaangevend. Het gaat dan vooral om wat in de Standards ‘validiteit’ heet, maar eigenlijk is dat dus het hele boekwerk. Ik gebruik deze Standards om krachtig te onderstrepen dat onze Eindtoets Basisonderwijs (Cito/CvTE) een onbekende validiteit heeft omdat er nooit een deugdelijk onderzoek naar is gedaan. Daarnaast maak ik gebruik van standaard 12.3, die ziet op het doeltreffend kunnen voorbereiden op toetsen en examens. Mijn betoog is dus beperkt, maar ondanks goede voornemens is het wel een lange blog geworden. Laten we complexe problematiek niet versimpelen tot eenvoudige slogans zoals ‘gelijke kansen bij gelijke capaciteiten’.

‘position paper’

 – ‘Gelijke kansen bij gelijke capaciteiten’ is een zinspreuk die hoort bij meritocratisch gedachtegoed (Sandel, 2020, legt het uit), en heeft niets met eerlijke kansen te maken. 

 – Gelijke kansen bestaan niet in de wereld van toetsen en examens; modellen voor gelijke kansen leveren tegenstrijdigheden op (Petersen & Novick, 1976). Uiteindelijk moeten subjectieve afwegingen worden gemaakt door de diverse belangengroepen. Het is dan ook eerlijker om niet over gelijke kansen te spreken, maar over eerlijke kansen. 

 – Bij eerlijke kansen hoort eerlijk onderwijs. Voor het funderend onderwijs, tot en met de onderbouw van het voortgezet onderwijs, is dat niet echt lastig te omschrijven, steunend op Hirsch (2020)

 – Funderend onderwijs gaat over basiskennis en -vaardigheden.  Die kan vrijwel iedereen goed leren beheersen, eerlijk onderwijs maakt dat ook mogelijk. Zie bijvoorbeeld McCourt (2020) over beheersingsleren.

 – Eerlijk onderwijs doet voortdurend een beroep op de kennis die leerlingen in school hebben verworven. Eerlijk onderwijs zet geen premie op kennis die sommige leerlingen al van huis uithebben meegekregen. Die demarcatie is belangrijk!

 – Talent, intelligentie, capaciteiten: dat zijn geen onwrikbare eigenschappen van leerlingen, maar juist mede door onderwijs verworven kennis en vaardigheden. (Wilbrink, 2020). 

 – En daarom is het zo wrang te zien hoe de Onderwijsraad ‘capaciteiten’ steeds neerzet als een onwrikbaar kenmerk van de leerlingen, in plaats van iets dat leerlingen juist door onderwijs verwerven. De raad kiest er zodoende voor om ongelijkheid voortdurend te bevestigen. En dat is het tegenovergestelde van beheersingsleren, dat uitgaat van hoge verwachtingen en die ook probeert waar te maken.

des Pudels Kern 

De kern van de kwestie – eerlijke kansen – is samengebald in de problematiek van en rond de eindtoets, voorheen ‘de cito’. De raad schuift die toets op naar het eind van driejarige brugklassen, hij is er dus nog steeds, mogelijk in aangepaste vorm. Kritische analyse van de eindtoets is nog steeds opportuun en kan helpen om het thema ‘eerlijker onderwijs’ van de bewindslieden beter af te bakenen.  

Anders dan voor de schooladviezen, is er bij de eindtoets sprake van een gestandaardiseerde test waarvoor snoeiharde kwaliteitseisen zijn vastgelegd in de AERA-APA-NCME Standards for Educational and Psychological Testing. Dat geeft ons een glasheldere basis voor een probleemanalyse waartoe de Onderwijsraad om onduidelijke redenen niet in staat was. Handig is dan ook dat over die eindtoets juist een kritisch proefschrift is verdedigd door Karen Heij. De voorzitter van de Onderwijsraad, Edith Hooge, was lid van de promotiecommissie die het proefschrift goedkeurde. 

Aan een landelijke test, zoals de eindtoets basisonderwijs, moeten de hoogste kwaliteitseisen worden gesteld en die eisen zijn opgesteld in de Amerikaanse Standards die wereldwijd worden gehanteerd. Nederland heeft ook wel eigen richtlijnen, maar die zijn minder grondig en minder actueel. Het zonnetje van die standaarden heet validiteit: is gebruik van de test geldig voor de beleden doelen? Karen Heij heeft een korte paragraaf 8.4.3 over validiteit, maar vergis u niet: heel haar boek is te kwalificeren als onderzoek naar validiteit van de eindtoets. Dat onderzoek is niet empirisch, maar historisch-analytisch. Voordat u kritiek gaat leveren op dat niet-empirische: lees deze blog uit, want ik ga u uitleggen dat empirisch onderzoek naar validiteit van de eindtoets nooit is gedaan, en zelfs niet binnen ethische grenzen mogelijk is. 

Onduidelijkheid viert hoogtij. Zoals over de vraag of de eindtoets wel een toets is (doeltreffend voor te bereiden), en geen test (het is juist niet de bedoeling dat men zich daar inhoudelijk op kan voorbereiden). Er is ook onduidelijkheid over de vraag of er sprake is van plaatsing in op basis van geschiktheid (wat de wet voorschrijft), danwel van selectie voor schoolsoorten, zoals de eindtoets in feite wordt gebruikt)). Dat zijn waarachtig geen subtiele verschillen. 

Eerst maar een citaat dat nauwkeurig aangeeft waar het om gaat bij onderzoek naar validiteit van testgebruik. Het komt uit een bij mij favoriet handboek over ‘educational measurement’, en wel uit een artikel van een grootmeester van de testpsychologie, Lee J. Cronbach (1971, p. 384). In het Engels, om nauwkeurig te blijven, ‘sorry’. 

“Validation of a decision rule logically requires an experiment in which, after being tested, persons are allocated to the alternative treatments without regard to the scores whose usefulness is being investigated. In selection research, the design calls for accepting persons without regard to their test scores. Indeed, logic requires strictly random assignments.” 

Voor dit experiment blijven de toetsscores onder beheer van een notaris, ze zijn bij niemand bekend: noch bij de leerlingen zelf, noch bij de leraren die bij dit experiment betrokken raken. Dubbelblind onderzoek, en dat is juist in het onderwijs van eminent belang omdat we weten dat verwachtingen van leerlingen zelf, en van leerkrachten, een sterke rol kunnen spelen. Die verwachtingen moeten in een experiment dus uitgeschakeld of tenminste geneutraliseerd worden. Die verwachtingen zijn ook een belangrijke reden waarom allerlei niet-experimentele onderzoeken van weinig waarde zijn om validiteit te onderzoeken.

U voelde de vraag al aankomen: is dat empirisch onderzoek naar validiteit van de eindtoets, of de combinatie van advies en eindtoets, ooit gedaan? Nee, er is mij geen onderzoek bekend dat ook maar in de buurt komt. Als dat gedaan zou zijn, zou dat spectaculair zijn en zouden we het allemaal weten. 

Is zo’n experimenteel onderzoek eigenlijk wel mogelijk? Ik dacht het niet: stel u eens voor om leerlingen willekeurig te verdelen over schoolsoorten van vmbo tot vwo. Dat is een onhaalbare kaart en het zou ethisch ook niet door de beugel kunnen omdat de schoolsoorten van ongelijke kwaliteit zijn. 

Dus wat heeft het Cito dan al die jaren gedaan? Er is toch heel veel onderzoek gedaan? En niet alleen door het Cito, bijvoorbeeld ook in het kader van cohortonderzoek (Prima, VOCL, COOL en het huidige Nationaal Cohortonderzoek Onderwijs. Wat al die onderzoeken kenmerkt is dat zij niet experimenteel zijn: zij bestuderen hoe de zaken gaan zoals ze gaan, niet zoals ze gaan wanneer de zaken zijn opgeschud door toedelingsmechanismen en verwachtingen uit te schakelen, zoals hierboven beschreven. Als het Cito onder het kopje ‘validiteit’ gegevens publiceert over waar leerlingen zich drie jaar na toelating tot het vo bevinden, dan is dat vanuit de validiteitsvraag ‘fake news’. Het laatste uitvoerige verslag is Van Boxtel, Engelen en De Wijs (2011), waarin de laatste, zeer uitvoerige, paragraaf 6.3.3 gaat over ‘De score op de Eindtoets en de feitelijke plaatsing en doorstroom’. Niks experimenteel onderzoek naar validteit. Maar signaleren de auteurs ook dat zo’n onderzoek niet beschikbaar is? Ik dacht het niet.  

“Het meest recente Toelatings- en doorstroomonderzoek is uitgevoerd tussen 2005 en 2008. De uitkomsten daarvan zijn toegepast in de interpretatiebrochure bij het Leerlingrapport bij de Eindtoets 2010 waarin de toetsresultaten van individuele leerlingen worden ‘vertaald’ naar een advies omtrent het best passende brugklastype in het voortgezet onderwijs. Omdat deze gegevens een goed beeld geven van de predicatieve validiteit zullen zij hier wat uitgebreider worden besproken.” 

De auteurs doen of hun neus bloedt en presenteren data over juiste en onjuiste voorspellingen alsof deze een predicatieve validiteit weergeven. Maar daarvoor is experimenteel onderzoek nodig!  ‘Fake news’ dus. Hopelijk gaat het Cito nog eens zijn leven beteren.  

Is er geen middenweg tussen het verzamelen van beschrijvende gegevens en het doen van een experiment? Je zou bijvoorbeeld kunnen kijken hoe het afloopt met leerlingen die met een puntje verschil in andere schoolsoorten beginnen. Dergelijk onderzoek is wel door onderwijseconomen gedaan, aan de hand van beschikbare databestanden. Ik heb daar altijd wel een beetje moeite mee. Goed, ik meld het hier maar voor de volledigheid en voor wie graag een tint grijs zoekt tussen al mijn zwart en wit.  

Maar maakt het werkelijk verschil? Zou een experiment, gesteld dat het mogelijk is, echt andere data op kunnen leveren dan het Cito presenteert? Ja, dat kan zeker. Stel dat er in Arnhem (Cito, red.) een fout gemaakt wordt waardoor een aanzienlijke groep die een havo-advies had moeten krijgen een vwo-advies heeft gekregen, en dat die fout pas na drie jaar wordt opgemerkt. Hoe zou het die leerlingen zijn vergaan, in vergelijking met hoe het leerlingen met een havo-advies pleegt te vergaan? Ik stel de vraag maar retorisch, want zoals iedereen wel weet, is alle beoordelen in het onderwijs relatief, van elastiek zeg maar: beoordelaars passen zich aan aan hun leerlingen en omgekeerd. Voor wie het interesseert: Wilbrink 1992, 1997. 

Een experiment met plaatsing of selectie is, hoe ingrijpend ook, toch nog maar een experiment met beperkte strekking, want het vigerende onderwijs(stelsel) blijft wat het is. Dat is overigens typisch een probleem bij veel onderzoek van onderwijs: dat het bestaande onderwijs met al zijn gebreken stilzwijgend als vaststaand gegeven is beschouwd. 

Laten we daarom het onderwijs zelf ook aan een experiment onderwerpen, al dan niet in combinatie met experimenteel onderzoek naar validiteit van de eindtoets. Dat komt goed uit, de Onderwijsraad stelt het bijna zelf voor. O, wacht, het advies gaat geheel voorbij aan de voorwaardelijke eisen die de Commissie Dijsselbloem ooit stelde aan vernieuwingen in het onderwijs. 

Laat ik het anders formuleren. De Standards schrijven voor bij onderzoek naar validiteit van zoiets als gebruik van de eindtoets ook de situatie mee te nemen waarin een en ander plaatsvindt. Iemand met mijn achtergrond in onderwijsonderzoek met specialisatie in alles wat met beoordelen heeft te maken komt dan tot de volgende analyse. De eindtoets is een test die wordt ontworpen op basis van het psychometrische idee dat een test optimaal onderscheid moet maken tussen leerlingen. Deze eindtoets wordt ingezet op het scharnierpunt tussen basis- en voortgezet onderwijs, die beide worden gedomineerd door eenzelfde cultuur van optimaal onderscheid tussen leerlingen en daar het te bieden onderwijs aan aanpassen. De Onderwijsraad noemt dat differentiëren, A.D. de Groot noemde dat consequent permanente selectie. De eindtoets doet hetzelfde wat leerkrachten bewust of onbewust ook doen: onderscheid maken. De onderscheid makende eindtoets vindt daarmee plaats in een omgeving die al een jaar of zes hetzelfde heeft gedaan en dat de komende jaren ook zal doen: onderscheid maken.  

Hoe verhoudt zich dat tot het doel de leerlingen eerlijk onderwijs aan te bieden, zowel in het basis- als in het voortgezet onderwijs? Laten we ons goed realiseren wat dit voortdurend onderscheid maken doet met leerlingen: het schept ongelijke verwachtingen, bij zowel de leerlingen als hun leerkrachten. Maar dat is niet een neutraal dingetje hè! Leerlingen krijgen daarmee kwalitatief onderscheiden onderwijs. Hoe noemen we dat ook alweer: discriminatie.  

De eindtoets functioneert binnen een stelsel dat voortdurend hetzelfde doet wat ook de eindtoets doet: oneerlijk onderscheid maken. Het heeft geen zin om binnen dit onderwijsstelsel de vraag naar validiteit van de eindtoets te beantwoorden: de eindtoets bevestigt permanente selectie; de permanente selectie bevestigt de eindtoets. Er valt over validiteit van de eindtoets heel veel meer te zeggen en te analyseren, maar dat is ijdele speculatie zolang we de vraag niet durven stellen naar validiteit van die permanente selectie, of zo u wil dat permanent differentiëren. Maar we zullen wel moeten, als we eerlijk onderwijs serieus willen nemen. Maar ook als we de kwaliteitseisen van de Standards serieus nemen: ook bedoelde en onbedoelde effecten van de eindtoets binnen het onderwijs(stelsel) horen bij onderzoek naar validiteit. 

Komend weekend deel 2: “Hoe het anders kan”.

Van de Werfhorst (2011)“Institutionele theorieën stellen eveneens dat instituties bestaande ongelijkheden legitimeren (Meyer, 1977).”  De eindtoets is zo’n institutie.

referenties

Richard Adams (16 Jun 2017). Britain’s strictest school gets top marks from Ofsted. The Guardianhttps://www.theguardian.com/teacher-network/2017/jun/16/britains-strictest-school-gets-top-marks-from-ofsted

Richard Adams (17 Oct 2019). GCSEs. Pupils with behavioural issues failing to meet exam benchmark. The Guardianhttps://www.theguardian.com/education/2019/oct/17/pupils-with-behavioural-issues-failing-to-meet-exam-benchmark 

AERA, APA, NCME (2014). Standards for Educational and Psychological Testinghttps://www.testingstandards.net/open-access-files.html

Katharine Birbalsingh (Ed.) (2016). Battle hymn of the tiger teachers: the Michaela Way. John Catt Educational. [niet (meer?) in druk]

Katharine Birbalsingh (2020). Michaela: The Power of Culture. John Catt Educational. https://www.athenaeum.nl/boek/?authortitle=birbalsingh-katharine/michaela-the-power-of-culture–9781912906215

Herman van Boxtel, Ronald Engelen, Anja de Wijs (2011). Wetenschappelijke verantwoording van de Eindtoets Basisonderwijs. Cito Primair Onderwijs. https://tinyurl.com/3puxkb8y

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift Leiden. Tjeenk Willink. online: http://www.benwilbrink.nl/projecten/toetsvragen.8.htm#Cohen_1981

Lee J. Cronbach (1971). Validity. In R. L. Thorndike: Handbook of educational measurement. American Council on Education.

David Didau (2018). Making kids cleverer. A    manifesto for closing the advantage gap. Crown House. https://www.crownhouse.co.uk/publications/making-kids-cleverer 

A.D. de Groot (juni 1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie en haar Grensgebieden26, 360-376. Didakometrisch en Psychometrisch Onderzoek. http://benwilbrink.nl/publicaties/70degroot.htm

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs.  Proefschrift Tilburg. https://karenheij.bijzonderboeken.nl

E. D. Hirsch, Jr. (Sept. 20, 2016). Why knowledge matters. Rescuing our children from failed educational theories. Harvard Education Press. Besproken: http://www.beteronderwijsnederland.nl/vakwerk/2017/02/waarom-geindividualiseerd-onderwijs-leidt-tot-meer-ongelijkheid/

E. D. Hirsch, Jr. (2020). How to educate a citizen. John Catt. https://tinyurl.com/cx4pv9ut

Mark McCourt (2019). Teaching for mastery. John Catt https://www.athenaeum.nl/boek/?authortitle=mccourt-mark/teaching-for-mastery–9781912906185 Blog (19 January 2018): https://emaths.co.uk/index.php/blog/item/some-thoughts-on-mixed-ability-vs-setting

J. W. Meyer (1977). The Effects of Education as an Institution. American Journal of Sociology, 83 (1), 55-77. http://kieranhealy.org/files/misc/meyer-effects77.pdf

Michaela Community School https://en.wikipedia.org/wiki/Michaela_Community_School [Met talrijke links]

Nationaal Cohortonderzoek Onderwijs. https://www.nationaalcohortonderzoek.nl

Onderwijsraad (15 april 2021). Later selecteren, beter differentiëren. https://tinyurl.com/by2bxb7d

Nancy S. Petersen en Melvin R. Novick (1976). An evaluation of some models for culture-fair selection. Journal of Educational Measurement13, 3-29. https://sci-hub.se/10.1111/j.1745-3984.1976.tb00178

Michael J. Sandel (2020). De tirannie van verdienste. Over de toekomst van de democratie. Ten Have. https://tinyurl.com/9va38258

H. G. van de Werfhorst (2011). Selectie en differentiatie in het Nederlandse onderwijsbestel. Gelijkheid, burgerschap en onderwijsexpansie in vergelijkend perspectief. Pedagogische Studiën88, 283-297. https://www.pedagogischestudien.nl/search?identifier=616352

Ben Wilbrink (1992). The first year examination as negotiation; an application of Coleman’s social system theory to law education data.  ECER paper, Twente. http://www.benwilbrink.nl/publicaties/92ColemanApplicationECER.htm

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation23, 31-48. http://www.benwilbrink.nl/publicaties/97AssessmentStEE.htm

Ben Wilbrink (2020). ‘Intelligentie’ in historisch perspectief. Van Twaalf tot Achttien.  https://www.van12tot18.nl/intelligentie-in-historisch-perspectief

Ben Wilbrink

Ben Wilbrink is onderwijsonderzoeker en werkte aan de Universiteit van Amsterdam en het Kohnstamm Instituut. Specialisatie: alles wat met beoordelen te maken heeft, van ontwerpen van toetsvragen tot arbeidsmarktposities. Luis in de pels van het Cito en verwante instellingen. Zie www.benwilbrink.nl.

  1. H. Philippens

    Ik zie uit naar het vervolg

  2. Paul Jansen

    Een vraag:
    Is het waar dat per definitie de hoogste 25% van de CITO toets het VWO advies krijgt, de volgende 25% Havo advies krijgt en de resterende 50% VMBO advies?

    • Karen Heij behandelt het onderwerp, zie vooral de paragraaf ‘Classificatie’, blz. 72-77.
      Een boeiende tabel staat op blz. 75.
      Van belang bij die tabellen over citotoetsscores en schoolsoort moet je je goed realiseren wat die citotoetsscores voorstellen: het zijn namelijk gestandaardiseerde scores, d.w.z. dat in beginsel ieder jaar opnieuw het gemiddelde op 535 wordt gezet, en de standaardafwijking ook van jaar tot jaar gelijk wordt gehouden. Dan is het onvermijdelijk zo dat bij dezelfde range van gestandaardiseerde scores eenzelfde percentage hoort, kleine schommelingen daargelaten.

Leave a Reply

− 2 = 1

Thema door Anders Norén