6 Uitdagingen voor grootschalige toetsen die ‘performance assessment’ inschakelen

De systematische literatuurstudie in combinatie met een doorgedreven analyse van internationale praktijkvoorbeelden, stelden ons in staat de meest cruciale uitdagingen van grootschalige evaluatie van competenties op grond van ‘performance assessment’ in kaart te brengen. De geraadpleegde bronnen gaven bovendien inzicht in mogelijke werkwijzen en oplossingen die een antwoord bieden op deze uitdagingen. Hieronder vatten we beknopt samen over welke uitdagingen het gaat en welke alternatieve oplossingen zich kunnen aandienen.

6.1 Uitdaging 1: Voldoende taken voorzien

Een toets waarbij gebruik wordt gemaakt van ‘performance assessment’, moet een voldoende groot aantal verschillende taken omvatten om tot betrouwbare en valide conclusies te leiden. Dan pas kunnen scores gegeneraliseerd worden overheen verschillende taken uit de ontwikkelde pool van taken (zie ook 3.1.) in plaats van louter toegeschreven worden aan een enkele uitgevoerde taak.

Aan de basis van de noodzaak om meerdere taken in te zetten liggen enerzijds de tussen-takenvariabiliteit en anderzijds het brede domein dat een competentietoets vaak moet bestrijken. De tussen-takenvariabiliteit (‘task sampling variability’) houdt in dat prestaties van leerlingen substantieel variëren tussen taken, omwille van de unieke kenmerken van de taak en de interactie van deze kenmerken met de kennis en ervaring van de leerling National Research Council (2014). Om een hypothetisch voorbeeld te geven: het geven van een presentatie en de vaardigheid om dit te doen, kan sterk variëren naargelang het onderwerp waarover het moet gaan. Of het onderwerp aansluit bij de persoonlijke levenssfeer of interesse van de leerling kan de uiteindelijke prestatie sterk beïnvloeden. Uit de geraadpleegde literatuur blijkt dat de tussen-takenvariabiliteit een van de facetten is die het meeste bijdraagt tot de (Shavelson 2010). Tussen-takenvariabiliteit is een belangrijkere bron van meetfouten dan tussen-beoordelaarsvariabiliteit. Of anders gesteld: het aantal taken heeft een groter effect op de generaliseerbaarheid van scores dan het aantal beoordelaars (Brennan and Johnson 1995). De mogelijkheid tot generaliseren van scores wordt bijgevolg groter naarmate er meer performance taken worden voorzien. De nood aan voldoende taken wordt ook ingegeven door het feit dat het domein dat toetsen met het oog op systeemmonitoring dienen te bestrijken, doorgaans veel breder is dan dat van toetsen binnen de klascontext (National Research Council 2014). Het domein ‘informatieverwerving en –verwerking’ bijvoorbeeld is erg ruim en omvat zowel het zelfstandig en op systematische wijze gebruiken van verschillende informatiebronnen, als het systematisch verwerven en gebruiken van samenhangende informatie (ook andere dan teksten). Een toets samenstellen die representatief zou zijn voor dit beoogde domein, kan doorgaans alleen indien er voldoende taken worden voorzien. Immers, hoe minder taken, hoe minder mogelijkheden er zijn om het beoogde domein volledig te bestrijken.

Praktisch is het afnemen van meerdere ‘performance assessment’-taken echter een grote uitdaging door de vereiste inzet van middelen die dit met zich meebrengt. Een ‘performance assessment’-taak is vaak complex, wat maakt dat de afname ingewikkelder is en het ook langer duurt om de taak af te ronden. Indien men ernaar streeft om de toetsduur niet al te sterk te verlengen, betekent dit dat er een grens is aan hoeveel ‘performance assessment’-taken men een leerling kan voorleggen. Het terugvallen op een beperktere set ‘performance assessment’-taken verhoogt echter weer het risico op een grote(re) meetfout en heeft een negatieve impact op de mogelijkheid tot generaliseren:

Many authors have observed that limited sampling of relevant performances from a target domain, owing to issues of practicality, safety and fairness as well as the complexity and/or length of the performance tasks, poses the main challenge for the validity of performance assessment in particular. (Curcin et al. 2014, 40)

Uit onze analyse van de praktijkvoorbeelden blijkt dat men doorgaans enkele honderden items en/of taken nodig heeft om een voldoende dekking van het brede, complexe toetsraamwerk te verzekeren. Bij een authentieke, thematische insteek is bovendien sowieso een ruim aantal taken nodig omdat gebruik gemaakt wordt van realistische scenario’s. De set taken moet daarbij een verhaal helpen neerzetten dat betekenisvol is voor de leerlingen (zie 5.2.4 voor een illustratie vanuit een praktijkvoorbeeld).

Samenvattend kunnen we stellen dat toetsen met het oog op systeemmonitoring vaak een breed domein moeten bestrijken. Dit leidt er, in combinatie met het fenomeen van de tussen-taken-variabiliteit, toe dat deze toetsen een aanzienlijk aantal taken dienen te omvatten om valide en betrouwbare toetsscores op te leveren. Dit is echter praktisch vaak niet haalbaar in termen van kosten voor de ontwikkeling van de toets, de tijd die leerlingen moeten spenderen aan de toets, en de tijd die gaat kruipen in het scoren van de performances. Haalbare en kwaliteitsvolle werkwijzen die op deze problematiek inspelen, die in de praktijkvoorbeelden en de wetenschappelijke literatuur aan bod kwamen, zijn (zie 5.2.3.):

het inperken van het competentiedomein naar het toetsdomein via een kwaliteitsvolle domeinbeschrijving;
het inzetten van matrix-sampling;
het voorzien van verschillende item-formats in één toets;
het inzetten van toetsen die meer ingebed zijn in het klasgebeuren.

6.2 Uitdaging 2: Standaardisering van toetsafname en scoren

Scores van toetsen zijn onderhevig aan meetfouten. Toevallige meetfouten kunnen enerzijds onder controle gehouden worden door de steekproef te vergroten (zie 6.1.), anderzijds door de meetprocedure te standaardiseren. Wat dit tweede aspect betreft, is het met het oog op de vergelijkbaarheid van de interpretaties die aan de scores gehecht worden, noodzakelijk dat dezelfde gedetailleerde procedures gevolgd worden op vlak van richtlijnen, omstandigheden van de toets en scoren (AERA APA & NCME 2014).

Standaardisering is een kwestie die bij alle (grootschalige) toetsen aan de orde is, ook toetsen die geen gebruik maken van ‘performance assessment’. Eigen aan ‘performance assessment’ is echter dat het grote(re) risico’s op variabiliteit ten gevolge van de toetsafname en het scoren van de ‘performance assessment’-taken in zich draagt. Op het vlak van toetsafname heeft dit bijvoorbeeld te maken met de grotere complexiteit van de taken in vergelijking met een toets die bestaat uit meerkeuzevragen en het risico dat leerlingen op de ene locatie meer begeleiding krijgen bij het oplossen van de taak dan elders. In dat geval heeft standaardisering (of het gebrek eraan) dus gevolgen op vlak van vergelijkbaarheid. Nog een uitdaging komt voort uit het feit dat ‘performance assessment’ vaak bestaat uit open opdrachten en dat de producten die uit deze opdracht ontstaan zo uiteenlopend zijn dat het het scoringsproces bemoeilijkt en de resultaten niet of minder vergelijkbaar zijn (Stecher 2015). Omwille van de complexiteit van de taken is het daarenboven in het geval van ‘performance assessment’ moeilijker om voldoende consistent en accuraat te scoren (Johnson, Penny, and Gordon 2009; Shavelson 2010). Naarmate beoordelaars de beoordelingscriteria verschillend toepassen wordt er ‘judgement uncertainty’ geïntroduceerd (National Research Council 2014). Beoordelaars hebben de neiging doorheen de tijd minder consistent te gaan beoordelen (‘rater drift’) (Shavelson 2010). Ook hier kan standaardisering een oplossing bieden.

Net omwille van de aard van ‘performance assessment’, is het standaardiseren van de toetsafname en het proces van scoren en beoordelen dus niet zomaar eenvoudig geklaard. Daar komt bovenop dat aangereikte oplossingen om de vergelijkbaarheid van scores te garanderen ook haalbaar moeten zijn; een kwestie die zeker bij grootschalige toetsen opspeelt. Kwaliteitsvolle werkwijzen om de toetsafname te standaardiseren, die in de praktijkvoorbeelden aan bod kwamen (zie ook 5.2.4.) zijn: - het lokaal inzetten van centraal getrainde toetsassistenten (duur en logistiek vaak omslachtig) of van lokale leerkrachten (in combinatie met centraal aangestuurde controle en kwaliteitszorg); - het terugvallen op digitale systemen die de omgeving waarin leerlingen hun toets afleggen duidelijk af te bakenen en tegelijkertijd een rijkere en meer authentieke context bieden.

Met betrekking tot het beperken van het risico op beoordelaarseffecten reiken empirische studies o.a. volgende oplossingen aan (zie ook 5.2.5.):

het voorzien van een degelijke training aan de beoordelaars;
het inzetten van verschillende beoordelaars;
het zodanig ontwerpen van taken, o.a. op grond van een ‘evidence centered design’ (5.2.3.), dat ze consistent gescoord kunnen worden;
het zodanig ontwerpen van scoringstools (analytische, dan wel holistische) dat ze dit proces ondersteunen.

Niet al deze oplossingen zijn evenwel haalbaar in termen van middelen en tijd. Het trainen van beoordelaars of de ontwikkeling van eenduidige scoringstools zijn dure en tijdrovende activiteiten; het samenbrengen van beoordelaars en hen aansturen van op afstand brengt vergelijkbare uitdagingen met zich mee. Ook het inzetten van meerdere beoordelaars leidt tot een verhoging van kosten en tijd. Vanuit deze context bieden zich alternatieve denkrichtingen aan. Paarsgewijze vergelijking lijkt een valide, betrouwbaar en haalbaar alternatief te zijn voor klassiek scoren via rubrics, zeker in combinatie met nieuwe technologische mogelijkheden (Lesterhuis et al. 2015, 2017; van Daal et al. 2019). Geautomatiseerd scoren doet omwille van een verhoogde efficiëntie zijn intrede, met name bij het beoordelen van schrijfproducten. Niet iedereen is er, vanuit validiteitsoogpunt, echter van overtuigd dat deze laatste werkwijze aan te bevelen is. Net als bij de toetsafname wordt in sommige praktijkvoorbeelden geopteerd om de eigen leerkrachten in te zetten voor het beoordelen. Extra waakzaamheid is dan wel geboden in verband met het optreden van beoordelaarseffecten. Onderzoek lijkt evenwel aan te tonen dat ook hier oplossingen voor kunnen worden geboden, onder andere door systematisch in te zetten op het professionaliseren van leerkrachten.

6.3 Uitdaging 3: Vermijden van construct-irrelevante variantie

Construct-irrelevante variantie (CIV) treedt op als naast het construct dat men beoogt te meten, nog één of meerdere andere constructen worden gemeten (S. Messick 1989; Samuel Messick 1994). Als een leerling er bijvoorbeeld niet in slaagt om een bepaalde wiskundetaak op te lossen, kan dit het resultaat zijn van het feit dat de taak ook de competentie ‘begrijpend lezen’ meet. Het zorgt ervoor dat er systematische ruis in de scores van de toets wordt geïntroduceerd.

Construct-irrelevante variantie dient in alle soorten toetsen vermeden te worden, maar door de specifieke kenmerken van ‘performance assessment’ is het risico op construct-irrelevante variantie groter. Zo kan bepaalde voorkennis van leerlingen, omwille van de complexiteit van de taken en het gebruik van hulpmiddelen zoals bijvoorbeeld een computer, een belangrijke bron van CIV zijn. Ook de inzet van beoordelaars in het scoringsproces doet het risico stijgen dat er systematisch aandacht uitgaat naar irrelevante kenmerken van prestaties van leerlingen (S. Lane 2015). Beoordelaarseffecten kunnen het resultaat zijn van toevalsfouten (bijv. in het geval de beoordelaar een ‘slechte dag’ heeft), maar kunnen ook een systematische oorzaak hebben, bijvoorbeeld wanneer beoordelaars systematisch milder zijn in hun beoordelingen. In het verleden werd bijvoorbeeld al vastgesteld dat handgeschreven schrijftaken hogere scores krijgen dan schrijftaken die met een woordprocessor zijn afgewerkt (Powers et al. 1994). Kane (2006) wijst erop dat de keuze voor een welbepaalde toetsvorm, of het nu een set meerkeuzevragen of een ‘performance assessment’-taak is, ook een bron van CIV kan zijn, omdat bepaalde groepen beter presteren op bepaalde toetsvormen. In de literatuur stelden we vast dat motivatie van leerlingen een belangrijke bron van CIV is, die specifiek opspeelt in ‘low-stakes’-toetsen, zoals bijvoorbeeld toetsen met het oog op kwaliteitsmonitoring op systeemniveau. Bij toetsen waar voor de leerling in kwestie weinig op het spel staat (‘low stakes’) zijn leerlingen vaak minder gemotiveerd, waardoor geen juist beeld gevormd kan worden van het reële prestatieniveau. Deze problematiek rond lage motivatie speelt sterker bij ‘performance assessment’ dan bij klassieke toetsen samengesteld uit meerkeuzevragen, zo stellen Suzanne Lane and Stone (2006). Hoewel de literatuur ons op het spoor bracht van deze bron van CIV, bleek dit als dusdanig niet op te duiken in onze selectie praktijkvoorbeelden.

We hebben vastgesteld dat de praktijkvoorbeelden erg verschillend omspringen met construct-irrelevante variantie. Ofwel probeert men deze foutenbron ten allen prijze te vermijden, doorgaans ten koste van de authenticiteit van de toets; ofwel springt men er iets flexibeler mee om en laat men authenticiteit primeren. Concreet wordt construct-irrelevante variantie o.m. tegengegaan door (zie ook 5.2.3., voorwaarde 10):

het uitgebreid testen van de taken, o.m. vanuit een evidence-centered design (5.2.3.); en
het inzetten van verschillende meetmethoden (o.a. S. Messick (1989); zie ook 5.2.3.).

6.4 Uitdaging 4: Het opzetten van taken die recht doen aan de criteriumsituatie

Hoe sterker de opdrachten in de toets lijken op taken die voorkomen in de reële situaties waarin men de te toetsen competentie moet inzetten (i.e. de criteriumsituatie of criteriumtaken), hoe beter de toetsscores de prestatie in het competentiedomein voorspellen (Straetmans 2014). De mate waarin toetstaken lijken op taken in de criteriumsituatie kan zich op verschillende manieren veruitwendigen, onder meer via de inhoud en vorm van de taak of via de fysieke omgeving en sociale context waarin de taak wordt uitgevoerd (Gulikers and Benthum 2017).

‘Performance assessments’ hebben het potentieel om, via authentieke taken, complexe vaardigheden en competenties te meten. Op die manier kunnen bepaalde constructen meer volledig in kaart worden gebracht. We stellen echter vast dat het voor de geanalyseerde praktijkvoorbeelden niet steeds evident is dit potentieel waar te maken. In realiteit is het vaak zo dat complexe taken onderverdeeld worden in verschillende componenten en voor elk van deze componenten vervolgens een aparte toets wordt uitgewerkt. Aan het einde worden de scores opgeteld en deze finale score representeert dan de in kaart gebrachte ‘performance’. Zoals Pecheone and Kahl (2015) aangeven, is dit de praktijk die in veel toetsen waar standaardisering om de hoek komt kijken, wordt gevolgd. De auteurs pleiten voor een andere, meer geïntegreerde aanpak die zij ‘criterion sampling’ noemen. Het begrip ‘criterion sampling’ is op zich eenvoudig:

“(…) if you want to know what a person knows and can do, sample tasks from the domain in which she is to act, observe her performance and infer competence and learning” (Pecheone and Kahl 2015, 72)

Verduidelijkend: deze aanpak veronderstelt dat het geheel meer is dan de optelsom van de onderdelen en dat complexe taken een integratie van bekwaamheden vereisen die niet gevat kunnen worden als ze verdeeld en gemeten worden als aparte componenten. Dat authentieke taken, of taken die recht doen aan de criteriumsituatie, vatbaar zijn voor construct-irrelevante variantie stipten we hierboven reeds aan (zie uitdaging 3). Een andere moeilijkheid is dat het opzetten van taken die recht doen aan de criteriumsituatie vaak in conflict komt met de noodzaak om te standaardiseren (zie uitdaging 2). Wanneer men in de toetsprocedure bijvoorbeeld aspecten gaat standaardiseren die niet vastgelegd zijn in de criteriumsituatie, vormt dit een bron van systematische ruis. Het gevolg is dat de resultaten niet geëxtrapoleerd kunnen worden naar het volledige competentiedomein (M. T. Kane 2013), met andere woorden: de taken doen geen recht doen de criteriumsituatie. We moeten dus steeds waakzaam zijn voor een (te) ver doorgedreven standaardisering. Standaardisering en authenticiteit moeten steeds onderling afgewogen. Met betrekking tot deze afweging lijkt de oplossing er op neer te komen zoveel mogelijk trouw te blijven aan de criteriumsituatie, maar terwijl ook een bepaalde graad van standaardisering en controle te behouden. Computergebaseerde toetsen dragen de mogelijkheid in zich dit evenwicht vorm te geven.

Om representatief te zijn voor het beoogde competentiedomein is het belangrijk dat de omstandigheden van de observatie representatief zijn voor deze in het beoogde domein (Kane, Crooks, and Cohen 1999). Het meenemen van de criteriumsituatie in het opzetten van de taak, betekent dus dat zowel product als proces in kaart worden gebracht. Bij de opzet van een toets schrijfvaardigheden, bijvoorbeeld, houdt dit in dat er ook ruimte moet zijn voor aspecten als voorafgaande studie van de literatuur, planning en revisie achteraf; procesgerelateerde elementen dus. Powers and Fowles (1998) wijzen er met betrekking tot een toets schrijfvaardigheid echter op dat leerlingen bij een schrijftaak vaak enkel tijd hebben om een eerste ontwerp uit te schrijven, niet voor een uitvoerige planning en volgende fasen van revisie en herwerking. De taken belichten met andere woorden onvoldoende de vele processen die schrijvers gebruiken en representeren dus niet volledig de beoogde competentie (de schrijfvaardigheid in de criteriumsituatie). Ook in de praktijkvoorbeelden die we anslyseerden worden procescomponenten momenteel nog in zeer beperkte mate meegenomen. Bij computergebaseerde toetsen lijkt het inzetten van ‘tracking software’ een beloftevolle piste om zicht te krijgen op het proces. Tracking is echter een middelenintensief proces, dat niet steeds die bepaalde gegevens oplevert die bijdragen tot het beter in kaart brengen van de competentie van leerlingen.

Het inzetten van ‘performance assessment’ brengt een meerkost met zich mee. Daarom is het belangrijk erover te waken dat de taken en rubrics die ontwikkeld worden, ook werkelijk de volledige breedte en diepte van het beoogde construct meten. Zoals S. Lane (2015) onderstreept is het immers niet omdat ‘performance assessment’ bijzonder geschikt is voor het meten van complexe constructen, dat elke ontwikkelde toetsvorm die ‘performance assessment’ omvat dit ook werkelijk doet: bewijsmateriaal is nodig om te illustreren dat de taken en rubrics werkelijk gericht zijn op het meten van dit beoogde construct. Haalbare en kwaliteitsvolle werkwijzen voor het vergaren van evidentie tijdens de pilootfase die in de praktijkvoorbeelden en de wetenschappelijke literatuur aan bod kwamen, zijn bijvoorbeeld (zie ook 5.2.7.) :

het gebruik maken van cognitieve interviews;
het uitvoeren van een piloottest om vervolgens statistisch na te gaan of de taken voldoen.

6.5 Uitdaging 5: Conform de doelstellingen rapporteren

De redenen waarom een toets ontwikkeld wordt, vormen ook het raamwerk waarbinnen wordt gerapporteerd (Cohen and Wollack 2006): resultaten dienen te worden gecommuniceerd in een vorm die overeenstemt met het doel van de test. Zo is het bijvoorbeeld mogelijk om resultaten op verschillende agregatieniveaus te rapporteren: individuele leerlingen, deelnemende scholen en/of systeemniveau. Tegenover de vereisten die voortvloeien uit de doelstellingen, komt ook het aspect haalbaarheid te staan, en wel op twee manieren. Enerzijds dient het rapport klaargestoomd te worden binnen een bepaalde termijn, opdat de opdrachtgevers van de toets ook tijdig aan de slag kunnen gaan met de informatie waarover wordt gerapporteerd (Cohen and Wollack 2006). Anderzijds wordt de manier waarop men kan rapporteren ook begrensd door de kwaliteit van de toetsscores. Zo is het bijvoorbeeld niet mogelijk om betrouwbare feedback op schoolniveau te genereren indien men daar bij het vastleggen van de doelstellingen en bij de toetsopzet, (m.n. bij het bepalen van de omvang van de steekproef leerlingen) geen rekening mee hield.

Ruwe scores worden getransformeerd en onder de vorm van geschaalde scores gerapporteerd (Tan and Michel 2011). Onder ‘schalen’ verstaan we “the process of associating numbers or other ordered indicators with the performance of examinees” (Kolen and Brennan 2014, 329). Een schaal wordt initieel meestal ontwikkeld voor één toets. Indien men een schaal opnieuw wil gebruiken voor de afname van een andere toets, dient men over te gaan tot equivalering: een statistisch proces dat gebruikt wordt om scores op twee of meer toetsen aan te passen, zodat de scores onderling inwisselbaar worden (Kolen and Brennan 2014), zelfs indien de toetsen (deels) uit verschillende items en/of taken bestaan. Op die manier kunnen de ruwe scores van opeenvolgende toetsafnames op de ontwikkelde scoreschaal worden geplaatst (Kolen and Brennan 2014). In de literatuur vinden we tal van equivaleringsmodellen en -procedures terug (o.a. Kolen and Brennan 2014; Holland and DePascale 2006).

Bij de analyse van de praktijkvoorbeelden viel op dat men zeer frequent item respons theorie (IRT) gebruikt, zowel om te schalen als met het oog op equivalering. IRT-modellen zijn statistische modellen die gebruikt kunnen worden om de ‘performance’ op een toets te schatten, waarbij gebruik wordt gemaakt van karakteristieken, van zowel personen als items, waarop de performance verondersteld gebaseerd te zijn (Suzanne Lane and Stone 2006). De focus op IRT is in de bestudeerde praktijkvoorbeelden soms zelfs bepalend voor het toetsdesign.

Davey et al. (2015) verwijzen naar een paper van Gorin and Mislevy (2013) waarin de auteurs twee centrale, psychometrische uitdagingen ten aanzien van het gebruik van IRT samenvatten. Een eerste uitdaging houdt verband met de gewenste lokale onafhankelijkheid (‘local independence’) van items en/of taken, wat impliceert dat toetsvragen/activiteiten idealiter niet met elkaar in verband mogen staan. Typerend voor ‘performance assessment’ is echter dat het taaktypes inschakelt, waarvan de toetsvragen/activiteiten net verband houden met elkaar, om op die manier voor de leerling een betekenisvol geheel te kunnen vormen. De tweede centrale psychometrische knoop die met het oog op het inzetten van IRT ontward dient te worden, houdt verband met de assumptie van ‘unidimensionaliteit’. Dit betekent dat het psychometrische model best werkt wanneer een toets slechts één construct meet. ‘performance assessment’ houdt ook op dat punt bepaalde risico’s in, in die zin dat het ingezet wordt om bredere constructen te meten waarbinnen veel verschillende elementen onderscheiden kunnen worden. Naast deze beide centrale psychometrische uitdagingen, is het feit dat de meeste equivaleringsdesigns steunen op het hergebruik van minstens een aantal van de gebruikte taken (‘ankertaken’), eveneens problematisch voor de toepassing van IRT op toetsen die een ‘performance assessment’-component bevatten. ‘performance assessment’-taken zijn immers vaak makkelijk te memoriseren door leerlingen en kunnen daarom moeilijker gebruikt worden als link tussen verschillende afnames van een toets. In het geval de voorwaarden van IRT geschonden (zullen) worden, stelden we in de praktijkvoorbeelden overigens vast dat men zich beperkt tot het rapporteren van beschrijvende resultaten. Gegeven dat IRT, specifiek voor ‘performance assessment’, enkele psychometrische uitdagingen met zich meebrengt, kan men overwegen om (bijkomend) andere technieken in te zetten, zoals bijvoorbeeld comparatieve beoordeling of paarsgewijze vergelijking (Heldsinger and Humphry 2010; S. Heldsinger and Humphry 2013; Lesterhuis et al. 2017).

Om een valide interpretatie (en gebruik) van scores te ondersteunen, moeten er ook beslissingen genomen worden over hoe de geschaalde scores ook betekenisvol gemaakt kunnen worden. De literatuur onderscheidt hiertoe drie soorten procedures: ‘item mapping’, ‘scale anchoring’ en ‘standard setting’ (Kolen 2006; Mazzeo and Zieky 2006) (zie 5.2.7.). Het gebruik van prestatiestandaarden is wat dit betreft een interessante manier, met name om te kunnen inschatten welk aandeel van de leerlingenpopulatie een bepaalde cesuur of minimumstandaard haalt. De nood aan nieuwe, empirisch onderbouwde methoden voor het vastleggen van prestatiestandaarden met betrekking tot ‘performance assessment’ wordt al lang gesignaleerd. Onder andere uit de literatuurstudie valt echter af te leiden dat aan deze oproep slechts beperkt gevolg werd gegeven. Ook bij de analyse van de praktijkvoorbeelden stelden we vast dat innovatieve werkwijzen nog niet zijn uitgewerkt of grondig onderzocht werden.

AERA APA & NCME. 2014. Standards for Educational and Psychological Testing. Washington D.C.: American Educational Research Association. https://blackwells.co.uk/bookshop/product/Standards-for-Educational-and-Psychological-Testing-by-American-Educational-Research-Association-American-Psychological-Association-National-Council-on-Measurement-in-Education-Joint-Committee-on-Standards-for-Educational-and-Psychological-Testing-U-S-/9780935302356.

Brennan, Robert L., and Eugene G . Johnson. 1995. “Generalizability of Performance Assessments.” Educational Measurement: Issues and Practice 14 (4): 9–12. https://doi.org/10.1111/j.1745-3992.1995.tb00882.x.

Cohen, Allan, and James Wollack. 2006. “Test Administration, Security, Scoring, and Reporting.” In Educational Measurement, edited by Robert L. Brennan, 4th ed., 355–86. American Council on Education/Praeger.

Curcin, Milja, Andrew Boyle, Tom May, and Zeeshan Rahman. 2014. “A Validation Framework for Work-Based Observational Assessment in Vocational Qualifications.” Coventry: Office of Qualifications and Examinations Regulation.

Davey, Tim, Steve Ferrara, P. W. Holland, Rich Shavelson, Noreen M. Webb, and Lauress L. Wise. 2015. “Psychometric Considerations for the Next Generation of Performance Assessment. Princeton.” Educational Testing Service.

Gorin, Joanna S, and Robert J Mislevy. 2013. “Inherent Measurement Challenges in the Next Generation Science Standards for Both Formative and Summative Assessment.” New Jersey: Educational Testing Service. https://www.ets.org/Media/Research/pdf/gorin-mislevy.pdf.

Gulikers, Judith, and Niek van Benthum. 2017. “Toetsen van competenties.” In Toetsen in het hoger onderwijs, edited by Henk van Berkel, Anneke Bax, and Desirée Joosten-ten Brinke, 227–39. Houten: Bohn Stafleu van Loghum. https://doi.org/10.1007/978-90-368-1679-3_18.

Heldsinger, S., and Humphry. 2013. “Using Calibrated Exemplars in the Teacher-Assessment of Writing: An Empirical Study.” Educational Research 55 (3): 219–35. https://doi.org/10.1080/00131881.2013.825159.

Heldsinger, and Humphry. 2010. “Using the Method of Pairwise Comparison to Obtain Reliable Teacher Assessments.” The Australian Educational Researcher 37 (2): 1–19. https://doi.org/10.1007/BF03216919.

Holland, P. W., and Charles A. DePascale. 2006. “Linking and Equation.” In Educational Measurement, by Robert L. Brennan, 4th ed., 187–220. Westport: Praeger Publishers.

Johnson, Robert L., James A. Penny, and Belita Gordon. 2009. Assessing Performance: Designing, Scoring, and Validating Performance Tasks. New York: The Guilford Press.

Kane. 2006. “Validation.” In Educational Measurement, by Robert L. Brennan, 4th ed. Westport: Praeger Publishers.

Kane, M. T. 2013. “Validating the Interpretations and Uses of Test Scores.” Journal of Educational Measurement 50 (1): 1–73. https://doi.org/10.1111/jedm.12000.

Kane, Crooks, and Cohen. 1999. “Validating Measures of Performance.” Educational Measurement: Issues and Practice 18 (2): 5–17. https://doi.org/10.1111/j.1745-3992.1999.tb00010.x.

Kolen. 2006. “Scaling and Norming.” In Educational Measurement, by Robert L. Brennan, 4th ed. Westport: Praeger Publishers.

Kolen, and Brennan. 2014. Test Equating, Scaling, and Linking: Methods and Practices. 3d edition. Statistics for Social Science and Public Policy. New York: Springer.

Lane, S. 2015. “Performance Assessment: The State of the Art.” In Beyond the Bubble Test, edited by Linda Darling-Hammond and Frank Adamson, 131–84. San Francisco: John Wiley & Sons, Inc. https://doi.org/10.1002/9781119210863.ch5.

Lane, Suzanne, and C. Stone. 2006. “Performance Assessment.” In Educational Measurement, edited by Robert L. Brennan, 4th ed., 387–432. American Council on Education/Praeger.

Lesterhuis, Donche, De Maeyer, van Daal, Van Gasse, Coertjens, Verhavert, Mortier, Coenen, and Vlerick. 2015. “Compententies Kwaliteitsvol Beoordelen: Brengt Een Comparatieve Aanpak Soelaas?” Tijdschrift Voor Hoger Onderwijs 33 (2): 55–67.

Lesterhuis, Verhavert, Coertjens, Donche, and De Maeyer. 2017. “Comparative Judgement as a Promising Alternative to Score Competences.” In Innovative Practices for Higher Education Assessment and Measurement, by E. Cano and G. Ion, 119–36. https://doi.org/10.4018/978-1-5225-0531-0.ch007.

Mazzeo, J., and M. J. Zieky. 2006. “Monitoring Educational Progress with Group-Score Assessments.” In Educational Measurement, by Robert L. Brennan, 4th ed., 681–99. Westport: Praeger Publishers.

Messick, S. 1989. “Validity.” In Educational Measurement, 3rd Ed, edited by R. L. Linn, 13–103. The American Council on Education/Macmillan Series on Higher Education. American Council on Education.

Messick, Samuel. 1994. “The Interplay of Evidence and Consequences in the Validation of Performance Assessments.” Educational Researcher 23 (2): 13–23. https://doi.org/10.3102/0013189X023002013.

National Research Council. 2014. Developing Assessments for the Next Generation Science Standards. Committee on Developing Assessments of Science Proficiency in K-12. Washington D.C.: The National Academies Press.

Pecheone, Raymond, and Stuart Kahl. 2015. “Where We Are Now.” In Beyond the Bubble Test, 53–91. John Wiley & Sons, Ltd. https://doi.org/10.1002/9781119210863.ch3.

Powers, Donald E., and Mary E. Fowles. 1998. “Effects of Preexamination Disclosure of Essay Topics.” Applied Measurement in Education 11 (2): 139–57. https://doi.org/10.1207/s15324818ame1102_2.

Powers, Donald E., Mary E. Fowles, Marisa Farnum, and Paul Ramsey. 1994. “Will They Think Less of My Handwritten Essay If Others Word Process Theirs? Effects on Essay Scores of Intermingling Handwritten and Word-Processed Essays.” Journal of Educational Measurement 31 (3): 220–33. https://www.jstor.org/stable/1435267.

Shavelson, Richard J. 2010. “On the Measurement of Competency.” Empirical Research in Vocational Education and Training 2 (1, 1): 41–63. https://doi.org/10.1007/BF03546488.

Stecher, Brian. 2015. “Looking Back.” In Beyond the Bubble Test, 15–52. John Wiley & Sons, Ltd. https://doi.org/10.1002/9781119210863.ch2.

Straetmans, G. 2014. “Toetsen met performance assessment methodieken.” In Toetsen in het hoger onderwijs, edited by Henk van Berkel, Anneke Bax, and Desiree Joosten-ten Brinke. Bohn Stafleu van Loghum.

Tan, Xuan, and Rochelle Michel. 2011. “Why Do Standardized Testing Programs Report Scaled Scores?” ETS R&D Connections, no. 16: 6.

van Daal, Lesterhuis, Coertjens, Donche, and De Maeyer. 2019. “Validity of Comparative Judgement to Assess Academic Writing: Examining Implications of Its Holistic Character and Building on a Shared Consensus.” Assessment in Education: Principles, Policy & Practice 26 (1): 59–74. https://doi.org/10.1080/0969594X.2016.1253542.