1 Ten Geleide

1.1 Context

De tijd dat onderwijs zich louter richtte op (het ontwikkelen van) kennis ligt achter ons. Meer en meer staan ‘competenties’ centraal. Concreet betekent dit dat onderwijsleerprocessen bredere gehelen van kennis, vaardigheden en attititudes bij lerenden erkennen, daarop inspelen en ze verder ontwikkelen. Als de focus van het onderwijs zich verlegt, dan heeft dit ook gevolgen voor de praktijk van het evalueren en beoordelen.

Ook beleidsmakers in Vlaanderen voelden in recente jaren de noodzaak aan om hun toetsprogamma’s die zich richten op controle van de kwaliteit van het onderwijs (de zogenaamde peilingsproeven), beter af te stemmen op de evolutie richting competentiegericht onderwijs en competentietoetsing. Dit vormde het vertrekpunt voor het wetenschappelijk onderzoek waaruit deze publicatie voortkomt. In de studie die we in 2016 uitvoerden in opdracht van het departement Onderwijs & Vorming (De Maeyer et al. 2016) gingen we op zoek naar de kwaliteitscriteria van (grootschalige) toetsprogramma’s die competenties in kaart willen brengen en daarbij gebruik maken van ‘performance assessment’.

De focus lag ten eerste op ‘performance assessment’, dat in deze publicatie gedefineerd wordt als de beoordeling (van competenties) op basis van leerlingprestaties in (levensechte) taken die relevant zijn voor de beoogde competenties. ‘Performance assessment’ wordt erkend als een krachtige manier om competenties te toetsen, onder andere omwille van het potentieel om leerlingen complexe taken te laten uitvoeren in zo levensecht mogelijke contexten. Het beoordelen van competenties via ‘performance assessment’ is echter niet zonder problemen; zeker niet wanneer dit op grote schaal wordt georganiseerd. Tegen die achtergrond is er nood aan een kader dat houvast biedt aan wie dit soort competentietoetsen wil inzetten.

Ten tweede, was deze studie gericht op grootschalige toetsprogramma’s, die kwaliteitszorg op systeemniveau voor ogen hebben. Het zijn met andere woorden toetsprogramma’s die eenzelfde doel hebben als het peilingsonderzoek zoals we dat in Vlaanderen kennen: het rapporteren over de prestaties van groepen van leerlingen, met als doel om op systeemniveau een uitspraak te doen over de mate waarin de doelstellingen bereikt worden. Omdat er voor de individuele leerlingen niets van de resultaten van de toetsen afhangt, worden er ook wel eens naar verwezen als ‘low-stakes’ toetsen. Ze verschillen hiermee van grootschallige toetsprogramma’s die een uitspraak doen over het competentieniveau van individuele leerlingen, zoals bijvoorbeeld de ‘A-levels’ in het Verenigd Koninkrijk of de Cito-toetsen in Nederland. Deze worden ook wel ‘high-stakes toetsen’ genoemd, omdat de resultaten belangrijk zijn voor (de toekomst van) individuele leerlingen. Daarnaast onderscheiden grootschalige toetsprogramma’s zich van toetsen die kleinschaliger zijn en bijvoorbeeld enkel op het niveau van een enkele klas of school worden uitgerold.

In deze publicatie stellen we het pakket onderzoeksresultaten voor dat voortkwam uit boven vernoemd onderzoek (De Maeyer et al. 2016). We maken een stand van zaken op van de kwaliteitseisen die gesteld worden aan ‘performance assessments’. Deze kwaliteitseisen worden voorgesteld aan de hand van een evaluatiematrix, die empirisch gefundeerde ondersteuning biedt aan betrokkenen bij (grootschalige) competentiebeoordelingen. We brengen bovendien de meest essentiële uitdagingen in kaart die komen kijken bij competentiebeoordelingen via ‘performance assessment’ en stellen, waar mogelijk, oplossingen voor. Daarnaast willen we de lezer ook kort meenemen in de ontwikkeling van de matrix door inkijk te geven in de theoretische basis en de onderzoekslijnen die werden uitgezet met het oog op het identificeren van de bouwblokken van de evaluatiematrix. We geven de lezer bovendien informatie over de manier waarop de buitenlandse praktijkvoorbeelden die we analyseerden, te werk gingen bij het opzetten, afnemen en scoren van de toetsen, en hoe ze hierover rapporteerden.

De ontwikkelde evaluatiematrix, stelt stapsgewijs de voorwaarden voor waar grootschalige competentietoetsen die gebruik maken van ‘performance assessment’ aan moeten voldoen om kwaliteitsvol te zijn. Er wordt stilgestaan bij de afwegingen die daarbij gemaakt moeten worden. We richten ons gezien de oorspronkelijke opdracht in de eerste plaats op grootschalige competentietoetsen, die rapporteren over het prestatieniveau van groepen van studenten (‘rapportering op systeemniveau’). Dit neemt niet weg dat de voorgestelde evaluatiematrix en de opgesomde uitdagingen ook relevante inzichten bieden voor wie in bredere zin geïnteresseerd is in het evalueren van competenties. De inzichten kunnen in sommige gevallen bijvoorbeeld ook toegepast worden op ‘performance assessments’ die in een klas worden ingezet; of op grootschalige competentietoetsen via ‘performance assessment’ die wel uitspraken doen over de prestaties van individuele leerlingen (‘high-stakes’ toetsen). Dit maakt dat deze publicatie potentieel interessant lectuur is voor toetsontwikkelaars; beleidsmedewerkers; onderwijsondersteuners; onderzoekers; lerarenopleiders; medewerkers van overheden, inspectie, pedagogische studiediensten, koepels; maar ook leerkrachten. Bij de ontwikkeling van de evaluatiematrix hebben we bovendien veel belang gehecht aan praktische inzetbaarheid. De bouwstenen van de matrix volgen een toetsdesign-insteek, wat betekent dat de logische stappen van het op- en uitzetten van toetsen gevolgd wordt. Dit maakt deze publicatie ook toegankelijk voor lezers die niet psychometrisch of methodologisch onderlegd zijn.

1.2 Leeswijzer

Hieronder geven we een beknopte beschrijving van de verschillende hoofdstukken van deze publicatie.

Hoofdstuk 2 – probleemstelling en begrippenkader schetst de problemen waar we op stoten wanneer het gaat over competentiegericht onderwijs en het beoordelen van ‘competenties’. De insteek van kwaliteitsmonitoring op systeemniveau zorgt voor verdere afbakening van de probleemstelling. Met het oog op het beantwoord krijgen van de centrale onderzoeksvraag (‘Welke kwaliteitseisen moeten er gesteld worden aan competentiebeoordelingen -– opgezet vanuit het perspectief van kwaliteitsmonitoring – waarbij men gebruik maakt van performance assessment?’), laten we ook licht schijnen op de centrale begrippen: ‘competentie’, ‘performance(-based) assessment’, ‘kwaliteit’ en ‘monitoring op systeemniveau’.

Hoofdstuk 3 – Ontwikkeling van de evaluatiematrix geeft inzicht in het theoretische kader dat aan de basis ligt van de evaluatiematrix. De keuze voor de ‘argumentatieve benadering van validiteit’ (Kane 2006) wordt verduidelijkt. Naast Kane wordt ook aansluiting gezocht bij andere auteurs met het oog op de verbetering van de praktische bruikbaarheid van de evaluatiematrix en het hanteren van een brede visie op ‘kwaliteit’. Het hoofdstuk geeft ten tweede een beknopt overzicht van de onderzoeksacties die werden uitgezet om verdere invulling aan het kader te geven: de literatuurstudie en de selectie en analyse van buitenlandse praktijkvoorbeelden.

Hoofdstuk 4 – Buitenlandse voorbeelden van grootschalige ‘performance assessments’ biedt een beknopte beschrijving van elk van de buitenlandse toetssystemen die we onder de loep namen. We geven de lezer inzage in de belangrijkste elementen van de manier waarop de toets is opgezet en volgen hierbij reeds de bouwstenen zoals die in de evaluatiematrix worden voorgesteld. Dit hoofdstuk geeft inzicht in de verschillende manieren waarop grootschalige toetsen worden opgevat in het buitenland en geeft de nodige basisinformatie voor hoofdstukken 5 en 6.

Hoofdstuk 5 – Evaluatiematrix stelt een raamwerk voor dat gebruikt kan worden voor het opzetten en/of evalueren van grootschalige competentietoetsen op basis van ‘performance assessment’, die zich richten op kwaliteitsmonitoring op systeemniveau. De focus ligt op de verschillende bouwstenen van een kwaliteitsvolle toets, waarbij grotendeels een toetsdesigninsteek wordt gevolgd. Aan elke bouwsteen worden een aantal voorwaarden gekoppeld, waaraan voldaan moet worden om tot een valide uitspraak over het prestatieniveau van een (groep van) leerling(en) te komen. De argumentatieve benadering van validiteit leert ons daarbij dat de niet-kwaliteitsvolle invulling van de ene bouwsteen, gevolgen heeft voor de kwaliteit van de volgende bouwsteen. Waar mogelijk illustreren we de voorwaarden aan de hand van internationale praktijkvoorbeelden. De matrix is enerzijds bedoeld als hulpmiddel voor toetsontwikkelaars. Anderzijds ondersteunt hij beleidsmedewerkers die een uitspraak moeten doen of een beslissing moeten nemen over de kwaliteit van bestaande toetsen en toetsconcepten. Door de stapsgewijze bespreking van de kwaliteitsvoorwaarden is het instrument echter interessant voor alle lezers die geïnteresseerd zijn in praktische handvaten voor het opzetten van competentiebeoordelingen via ‘performance assessment’. Hoewel de focus ligt op grootschalige toetsen die een uitspraak doen op systeemniveau, kunnen er ook lessen uit getrokken worden voor kleinschaligere toetsen, of grootschalige toetsen die wel de ambitie hebben op individueel leerlingenniveau een uitspraak te doen.

Hoofdstuk 6 - Essentiële uitdagingen voor grootschalige toetsen die ‘performance assessment’ inschakelen gaat in op een aantal essentiële uitdagingen met betrekking tot grootschalige toetsen met een ‘performance assessment’-component. We identificeerden deze uitdagingen op basis van inzichten uit de literatuur, met name de systematische literatuurstudie en basiswerken over ‘performance assessment’ enerzijds, en inzichten uit de geanalyseerde praktijkvoorbeelden anderzijds. Het hoofdstuk stipt waar mogelijk ook manieren aan om deze uitdagingen om te buigen en tot alternatieve oplossingen te komen.

Hoofdstuk 7 – Implicaties en uitdagingen voor de praktijk gaat in op de lessen die uit het onderzoek getrokken kunnen worden voor het actuele en toekomstige beleid rond en de implementatie van grootschalige ‘performance assessments’ met het oog op kwaliteitsmontoring op systeemniveau.

Achteraan de publicatie wordt een ‘Woordenlijst’ voorzien, waar de termen die nadere toelichting behoeven, op een rijtje worden gezet.