2 Probleemstelling en Begrippenkader

De maatschappij verandert aan een hoog tempo en hetzelfde geldt voor het onderwijs. In het voorbije decennium heeft competentiegericht onderwijs meer en meer ingang gevonden in de Verenigde Staten, in Europa en ook in Vlaanderen. Aangezien de manier waarop men beoordeelt een sterke invloed heeft op de wijze waarop men leert, dient ook de omslag gemaakt te worden naar competentiegericht beoordelen en evalueren. Op die manier doet ‘performance(-based) assessment’ zijn intrede. Brede, complexe constructen zoals competenties, zijn doorgaans immers veel moeilijker te meten op grond van zogenaamde ‘klassieke’ toetsen (bv. een schriftelijke toets opgesteld uit meerkeuzevragen). Het kwaliteitsvol opzetten van ‘performance assessment’ is echter geen eenvoudige taak, zeker niet wanneer de toetsing grootschalig is. Dit is zeker zo als het toetsen gericht is op het bewaken van de kwaliteit op het niveau van een onderwijssysteem, wat de aanleiding vormde van de studie die aan de grondslag ligt van deze publicatie.

2.1 Competentiegericht onderwijzen, leren en beoordelen

In reactie op de geschetste evolutie is niet alleen in de Verenigde Staten een beweging vast te stellen richting ‘performance-based education’ (Darling-Hammond and Adamson 2014); in veel Europese landen is de idee van competentiegericht onderwijs intussen stevig verankerd (Weigel, Mulder, and Collins 2007). Wijzigingen in het onderwijs vereisen ook beoordelingsmethoden die daaraan aangepast zijn, teneinde op een adequate wijze vast te stellen of en in welke mate de vooropgestelde competenties verworven zijn J. Biggs (1996) en J. B. Biggs and Tang (2011) hebben het over ‘constructive alignment’: de noodzaak om instructie, leren en beoordelen mooi op elkaar af te stemmen. Prodromou (1995) spreekt in dit verband van het ‘backwash effect’: wat beoordeeld wordt, bepaalt in sterke mate wat wordt geleerd. Aangezien het onderwijsleerproces in toenemende mate gestuurd wordt vanuit het raamwerk van competenties, duikt het risico op dat de noodzakelijke afstemming tussen de elementen instructie, leren en beoordelen op de helling komt te staan. Indien het onderwijsbeleid en de onderwijspraktijk in Vlaanderen wenst te evolueren naar en/of verder wil inzetten op meer competentiegericht onderwijs, dan mag het beoordelingsproces niet achterblijven en moeten beoordelingen niet enkel gericht zijn op het meten van louter kennis, maar ook van competenties. Zo komen we terecht bij competentietoetsing, die verschillende vormen kan aannemen en uiteenlopende functies kan dienen, bv. toetsen op klasniveau of op systeemniveau, vanuit formatieve en/of summatieve insteek, kleinschalig of grootschalig, met het oog op ontwikkeling of vanuit een verantwoordingsperspectief.

2.2 Kwaliteitsmonitoring op een competentiegerichte leest schoeien

Om het peil van het onderwijs te bewaken en te verbeteren organiseert het Vlaams onderwijsbeleid jaarlijks peilingsonderzoek. Peilingsonderzoek vormt dus een van de hoekstenen van kwaliteitszorg op systeemniveau. Dergelijk onderzoek ‘peilt’ in welke mate bepaalde eindtermen behaald zijn (bv. Hoe is het gesteld met de schrijfvaardigheid in Vlaanderen in een bepaald jaar?). Daarbij gaat men ook na of de prestaties te vergelijken en te verklaren zijn aan de hand van leerling-, klas- en schoolkenmerken. Door systematisch te peilen naar de mate waarin eindtermen behaald worden, zet dit soort onderzoek desgevallend aan tot bepaalde beleidsinitiatieven. Kenmerkend voor peilingsonderzoek is dat het zich beroept op grote steekproeven van leerlingen om tot statistisch relevante conclusies te komen. Bijgevolg worden hoofdzakelijk deelcomponenten van competenties bevraagd (o.a. specifieke kennis en/of vaardigheden) die met meerkeuzevragen of gesloten vragen in kaart te brengen zijn. Dit resulteert echter in een partieel beeld van de bekwaamheid van leerlingen: de competenties worden immers niet geïntegreerd in beeld gebracht. Waar vroeger het accent lag op het meten van deelaspecten van kennis of specifieke vaardigheden, onderstreept het beleid meer en meer de noodzaak om competentiegericht te evalueren. Dit laatste gebeurt in Vlaanderen ook reeds ten dele bij de praktische proeven, die deel uitmaken van sommige peilingsproeven. Leerlingen moeten bijvoorbeeld een sollicitatiegesprek doen of voeren natuurexperimenten uit, wat hen in staat stelt competenties op integratieniveau te tonen. Omdat de praktische proeven echter bij een beperkte steekproef leerlingen worden afgenomen, kan op basis van deze proeven geen uitspraak gedaan worden over het behaalde niveau van de leerlingen in Vlaanderen, wat het uiteindelijke doel van de peilingstoetsen is. Dit illustreert dat hoewel men meer en meer doordrongen is van de noodzaak om ook toetsprogramma’s in het kader van kwaliteitsmonitoring in lijn te brengen met de evolutie richting competentiegericht onderwijs, het geen evidentie is om dit in de praktijk te brengen.

2.3 Competenties beoordelen via ‘performance assessment’

Omwille van het complexe samenspel tussen kennis, vaardigheden en attitudes die gepast zijn voor een bepaalde context (Figel 2007), is de beoordeling van competenties niet eenvoudig. Om bijvoorbeeld na te gaan of leerlingen eigen ideeën creatief kunnen vormgeven door gebruik te maken van ICT, is een gesloten kennistoets onvoldoende om tot valide conclusies te komen (Rubin 1996). Leerlingen een schoolaffiche laten ontwerpen met behulp van ICT, heeft daarentegen meer potentieel om een valide beeld te krijgen van de betreffende competentie. In de onderzoeksliteratuur plaatst men dit soort simulatie van realistische taken in realistische situatie(s), waarin de te beoordelen competentie moet worden gebruikt, onder de koepel ‘performance assessment’ (o.a. Kane, Crooks, and Cohen 1999; Suzanne Lane and Stone 2006). Voor de keuze om competenties bij leerlingen te toetsen via (vormen van) ‘performance(-based) assessment’ vinden we onder andere steun bij Suzanne Lane (2010). Zij stelt dat:

(w)hen students are given the opportunity to work on meaningful, real world tasks in instruction, students have demonstrated improved performance on performance assessments. Sound educational practice calls for the alignment among curriculum, instruction and assessment, and there is ample evidence to support the use of performance assessments in both instruction and assessment to improve student learning for all students.

Hoewel Suzanne Lane (2010) opmerkt dat ‘performance assessment’ ook inzetbaar is voor grootschalige beoordelingen (zoals bv. peilingsonderzoek), is het toetsen van competenties via grootschalig ‘performance assessment’ niet zonder problemen. Bij het opzetten van deze toetsen dienen een aantal keuzes gemaakt te worden, die een effect hebben op de kwaliteit van de toets. Richtinggevende vragen zijn onder meer: Hoeveel taken zijn nodig om de beoogde competentie goed in kaart te brengen? Aan welke elementen dient men aandacht te besteden bij het uitwerken van de domeinbeschrijving en het daaruit resulterende toetsraamwerk? Welke mate van standaardisering is er vereist op vlak van toetsafname? Hoe ervoor zorgen dat beoordelaars een vergelijkbaar oordeel vellen? Welk cijfer is voldoende om de standaard te behalen?

Om gericht stappen te zetten in de richting van meer competentiegericht peilingsonderzoek, is het nodig om te verhelderen hoe deze keuzes een impact hebben op een kwaliteitsvolle implementatie van ‘performance assessment’. Wetenschappelijk onderzoek binnen het domein Onderwijs & Meten (‘Educational Measurement’) biedt daartoe reeds een aantal inzichten. Een inventarisatie van de meest recente inzichten uit dit domein kan ondersteuning bieden in het uitwerken van een grootschalig, meer competentiegericht toetsprogramma en kan de evaluatie van alternatieve manieren van toetsing van competenties ondersteunen.

2.4 Doelstellingen van het onderzoek

Tegen de geschetste achtergrond beoogde het onderzoeksproject dat aan de basis van deze publicatie ligt (1) een stand van zaken te geven van de inzichten m.b.t. de kwaliteitseisen van ‘performance assessment;’ en (2) op basis van deze kwaliteitseisen een evaluatiematrix uit te werken om toetsprogramma’s op basis van hun theoretische en praktische sterktes en zwaktes te positioneren. Verder was het doel om (3) op basis van de evaluatiematrix, buitenlandse voorbeelden van grootschalige competentiebeoordelingen te inventariseren en te duiden. Het (grootschalig) meten van competenties is immers ook in andere onderwijssystemen een uitdaging. Inzicht in hoe men hier in realiteit mee omgaat en in welke overwegingen gemaakt kunnen worden, kunnen helpen om de kwaliteitseisen in een realistisch perspectief te zien.

De centrale onderzoeksvraag, ‘Welke kwaliteitseisen moeten er gesteld worden aan competentiebeoordelingen — opgezet vanuit het perspectief van kwaliteitsmonitoring – waarbij men gebruik maakt van performance assessment?’, werd enerzijds ingegeven door de noodzaak om toetsprogramma’s die kwaliteitsmonitoring beogen (meer) toe te spitsen op competenties; en anderzijds door de keuze voor ‘performance assessment’ om competenties te beoordelen. In de volgende sectie gaan we dieper in op vier begrippen die in de onderzoeksvraag centraal staan.

2.5 Begrippenkader

2.5.1 Competentie

Naast de gangbare omschrijvingen van het begrip ‘competentie’ die opduiken in Europese en Vlaamse beleidsdocumenten, vinden we ook tal van definities terug in de academische literatuur. Baartman et al. (2007) bijvoorbeeld, stellen in hun analyse van gangbare definities vast dat het begrip ‘competentie’ op veel verschillende manieren wordt gedefinieerd. De auteurs besluiten dat er, algemeen genomen, twee belangrijke aspecten terug te vinden zijn: (1) de integratie van vaardigheden, kennis en attitudes en (2) een link naar een bepaalde jobcontext. Ook in de definitie die L. Baartman (2008) hanteert, en die teruggrijpt op de omschrijving die ook Lizzio and Wilson (2004) voorstellen, zijn beide componenten aanwezig. Competentie is voor L. Baartman (2008, 11) : “(…) the capacity to enact specific combinations of knowledge, skills, and attitudes in appropriate job contexts”.

Omdat wij ook focussen op leerlingen uit het lager en het secundair onderwijs, verruimen we de context waarbinnen het begrip competentie in Baartmans definitie vorm krijgt. Hiervoor doen we een beroep op de omschrijving die de werkgroep ‘Erkennen van Verworven Competenties’ (EVC) hanteert: “de reële en individuele capaciteit om kennis (theoretische en praktische kennis), vaardigheden en attitudes in het handelen aan te wenden, en dit in functie van de concrete, dagelijkse en veranderende werksituatie en van persoonlijke en maatschappelijke activiteiten” Dienst Beroepsopleiding (2008, 6–7) . Met andere woorden, niet enkel de professionele context speelt een rol, maar ook de persoonlijke en maatschappelijke omgeving waarin kinderen, jongeren en adolescenten zich bewegen.

Op grond van de verschillende invullingen van het begrip en gegeven focus van deze publicatie, schuiven we de volgende werkdefinitie voor het begrip ‘competentie’ naar voor.

Competentie:: Een competentie verwijst naar de bekwaamheid om specifieke combinaties van kennis, vaardigheden en attitudes in te zetten bij het volbrengen van een specifieke taak, relevant voor persoonlijke, professionele of maatschappelijke activiteiten.

2.5.2 ‘Performance assessment’

Vanuit het perspectief een breed kwaliteitskader met betrekking tot ‘performance assessment’ van competenties aan te reiken, is het cruciaal dat we ook kiezen voor een brede, open definitie van het begrip ‘performance assessment’ zelf. In de Angelsaksische wereld wordt de term ‘performance assessment’ veelal breed gedefinieerd. Daar omvat ‘performance assessment’ alles wat buiten de categorie meerkeuzevragen valt, wat te verklaren is door de traditie daar om voor bijna alle ‘high stakes’-toetsing, dit is toetsing waarbij er voor de leerling veel op het spel staat, voor meerkeuzevragen te kiezen. De definitie van Basturk (2008, 431–32) illustreert deze invalshoek: “Performance Assessment refers to a form of evaluation that requires students to perform a task rather than select an answer from a ready-made list.” Vanuit dit perspectief omvat ‘performance assessment’ een zeer breed gamma aan activiteiten: van het aanvullen van zinnen via enkele woorden, over het schrijven van een grondige analyse, naar het uitvoeren van een onderzoek in een labo en het schrijven van een verslag hierover Stecher (2015). Hoewel deze definitie het beslist mogelijk maakt een breed kwaliteitskader van ‘performance assessment’ van competenties uit te werken, vertrekt ze te veel van wat ‘performance assessment’ niet is (‘het is alles wat niet te bestempelen valt als een toets op basis van meerkeuzevragen’) en gaat ze te weinig in op wat er uniek aan is. De definitie van Fitzpatrick and Morrison (1971, 268) komt hier wel aan tegemoet:

A performance test (performance or product evaluation) has been defined here as a test in which a criterion situation, such as a job, is simulated to a relatively high degree (…) the potential value of the performance test lies in its closer approach to reality – its greater relevance in determining the degree to which the examinee can actually perform the tasks of the criterion job or other situation.

In het verlengde hiervan verwijst Suzanne Lane (2010) en S. Lane (2015) expliciet naar Kane, Crooks, and Cohen (1999) en diens opvatting over de nauwe gelijkenis tussen de ‘performance’ of prestatie die wordt beoordeeld en de ‘performance’ of prestatie waarin men is geïnteresseerd, als definiërende eigenschap van ‘performance assessment’. ‘Performance assessment’ verwijst met andere woorden naar simulaties van realistische taken in realistische situatie(s) waarin de te beoordelen competentie moet worden gebruikt.

Cognitieve complexiteit is een ander element dat in sommige definities van ‘performance assessment’ aanwezig is (o.a. Eisner 1999; Messick 1996). Cognitieve complexiteit verwijst naar de noodzaak om cognitieve strategieën van hogere orde in te schakelen om de taak tot een goed einde te brengen. We kiezen er bewust voor om dit element niet op te nemen in onze definitie. In de begripsomschrijving van ‘performance assessment’ maken Suzanne Lane and Stone (2006, 388) duidelijk waarom volgens hen niet alle ‘performance assessments’ ‘complexe denkvaardigheden’ vereisen: “(…) the extent to which a performance assessment should require high-level reasoning and problem solving skills is dependent on the performance of interest.”

Deze elementen samen genomen leidt tot de volgende werkdefinitie voor ‘performance assessment’.

Performance assessment:: Een assessment of beoordeling (van competenties) op basis van leerlingprestaties in (levensechte) taken die relevant zijn voor de beoogde competenties.

2.5.3 Kwaliteit bij meten en beoordelen

Hoofddoel is de kwaliteitsvereisten in kaart te brengen die gesteld worden aan grootschalige toetsprogramma’s die competenties meten via ‘performance assessment’. Hierboven bakenden we reeds de begrippen ‘competentie’ en ‘performance assessment’ af; nu stellen we het begrip ‘kwaliteit’ uit de term ‘kwaliteitsvereisten’ aan de orde.

Traditioneel komen we bij de conceptualisering van ‘kwaliteit’ in het kader van meten en beoordelen uit bij begrippen als ‘validiteit’ en ‘betrouwbaarheid’. Over validiteit wordt reeds lang gedebatteerd (Lissitz and Li 2011); talrijk zijn de werken die de betekenis van het begrip, inclusief het meten van validiteit onder de loep namen (cf. AERA APA & NCME 2014; Brennan 2006; L. Cronbach 1971; M. T. Kane 2013; S. Messick 1989). Wij nemen op pragmatische wijze akte van de veelheid aan definities en discussies inzake terreinafbakening en stellen in navolging van Sireci (2009) dat validiteit te maken heeft met de geschiktheid van de interpretatie en het gebruik van toetsscores. Valideringsonderzoek speurt dus naar bewijzen voor een welbepaalde interpretatie en gebruik van scores op beoordelingen of toetsen. Daarbij is het belangrijk te benadrukken dat niet het instrument, een toets, een taak of een toetsscore op zich al of niet valide is, maar wel de interpretatie die men aan de daaruit afgeleide score hecht, alsook de wijze waarop scores gebruikt worden (Lee J. Cronbach and Gleser 1965; Lee J. Cronbach and Meehl 1955; Kane 2006; M. T. Kane 2013; S. Messick 1989). Betrouwbaarheid verwijst onder andere naar de consistentie van scores over replicaties van een toets of beoordelingen heen. De aard en kwaliteit van de respons van een leerling op een toets kunnen variëren van de ene set taken naar de andere, of van het ene moment van toetsafname naar het andere, zelfs onder gecontroleerde omstandigheden. Verschillende beoordelaars kunnen bovendien andere scores toekennen aan dezelfde prestatie (AERA APA & NCME 2014). Betrouwbaarheidsonderzoek heeft het kwantificeren van de precisie van testscores en het in kaart brengen van de foutenbronnen tot doel (Haertel 2006).

Validiteit en betrouwbaarheid vormen centrale begrippen wanneer het gaat over kwaliteitscriteria voor het opzetten van grootschalige competentiebeoordelingen. Daarnaast zijn er ook zogenaamde ‘alternatieve’ kwaliteitscriteria, zoals authenticiteit, transparantie en eerlijkheid niet uit het oog te verliezen (L. Baartman et al. 2006; P. Newhouse 2013). Authenticiteit verwijst naar de graad van gelijkenis tussen de toetstaken en taken die in het ‘echte leven’ moeten worden uitgevoerd. Eerlijkheid heeft betrekking op het gegeven dat een toets bepaalde groepen niet mag bevoordelen/benadelen en de beoogde kennis, vaardigheden en attitudes (KVA’s) moet weerspiegelen, zonder irrelevante variantie toe te staan. Transparantie impliceert dat een toets bevattelijk is voor alle deelnemers, dat leerlingen de beoordelingscriteria kennen, weten wie de beoordelaars zijn, en wat het doel van de toets is (L. Baartman et al. 2006).

Hoewel we de elementen ‘betrouwbaarheid’, ‘authenticiteit’, ‘transparantie’ en ‘eerlijkheid’ in bovenstaande paragrafen los van de kwestie validiteit aan bod lieten komen, volgen we o.a. AERA APA & NCME (2014) in de erkenning dat dit ten gronde allemaal validiteitskwesties zijn. Als men niet tegemoet komt aan deze kwaliteitscriteria, verkleint de voorspellende waarde van scores ten aanzien van bepaalde criteria, vormen de scores een minder solide vertrekpunt om uitspraken te doen over de leerlingen, en zijn de mogelijkheden voor een degelijke beslissing op basis van de toetsscores beperkt.

We volgen C. P. Newhouse (2011) en Der Vleuten and Schuwirth (2005) bovendien in de vaststelling dat het bepalen van de kwaliteit van een toets steeds een afweging impliceert tussen de onderscheiden kwaliteitscriteria enerzijds en haalbaarheid in termen van tijd en middelen die nodig zijn om deze kwaliteitscriteria te garanderen anderzijds. Daarom moeten tijd en middelen verbonden aan het opzetten en implementeren van een toets ook steeds mee in beschouwing worden genomen.

Samengevat, stellen we deze werkdefinitie voor het begrip ‘kwaliteit’ voor.

Kwaliteit:: …is een combinatie van psychometrische elementen zoals validiteit en betrouwbaarheid en ‘alternatieve’ criteria zoals authenticiteit, transparantie en eerlijkheid. Deze verschillende kwaliteitscriteria worden voortdurend tegen elkaar afgewogen, waarbij ook gekeken wordt naar de haalbaarheid van de opzet van de toets in termen van tijd, financiële middelen en infrastructuur.

2.5.4 Monitoring op systeemniveau

Deze publicatie richt zich op kwaliteitscriteria voor grootschalige competentietoetsen op basis van ‘performance assessment’, vanuit het perspectief van monitoring of kwaliteitsbewaking op systeemniveau. Onze focus is met andere woorden gericht op toetsen op het macroniveau, die iets zeggen over het onderwijssysteem als geheel. Ze onderscheiden zich van toetsen op meso- en microniveau, die uitspraken doen over respectievelijk scholen en individuele leerlingen. Anderzijds verschillen ze van andere toetsen op macroniveau, die uitspraken doen op individueel leerlingniveau. Grootschalige toetsen vanuit het perspectief van monitoring of kwaliteitsbewaking op systeemniveau worden ontworpen en afgenomen met het oog op het beantwoorden van de vraag wat groepen van leerlingen kunnen en kennen. Mogelijk worden hierbij vergelijkingen gemaakt tussen groepen van leerlingen (bijvoorbeeld naar regio of geslacht) of wordt aangeduid in hoeverre bepaalde groepen de beoogde onderwijsdoelstellingen bereiken (zoals bv. de eindtermen in Vlaanderen) (Mazzeo and Zieky 2006).

Omdat bij toetsen die monitoring op systeemniveau beogen meestal op groepsniveau wordt gerapporteerd, hangt er in principe voor individuele leerlingen en scholen niets van af: er wordt op basis van de resultaten bijvoorbeeld geen beslissing genomen over het al dan niet slagen van individuele leerlingen of over de financiering van scholen. Tegen die achtergrond zijn het ‘low-stakes’-toetsen. Dit staat in contrast met ‘high-stakes’-toetsen, waar voor de individuele leerling of school wel gevolgen gekoppeld zijn aan de geleverde prestaties

Samengevat stellen we met betrekking tot monitoring op systeemniveau volgende werkdefinitie voor.

Monitoring op systeemniveau:: Toetsen die monitoring op systeemniveau beogen zijn grootschalige toetsen die rapporteren over wat groepen van leerlingen kennen en kunnen, in relatie tot vooraf vastgelegde onderwijsdoelstellingen. Omdat de resultaten worden gerapporteerd op systeemniveau, hebben ze geen repercussies voor individuele leerlingen, en worden ze als ‘low-stakes’-toetsen beschouwd.

AERA APA & NCME. 2014. Standards for Educational and Psychological Testing. Washington D.C.: American Educational Research Association. https://blackwells.co.uk/bookshop/product/Standards-for-Educational-and-Psychological-Testing-by-American-Educational-Research-Association-American-Psychological-Association-National-Council-on-Measurement-in-Education-Joint-Committee-on-Standards-for-Educational-and-Psychological-Testing-U-S-/9780935302356.

Baartman, Liesbeth. 2008. “Assessing the Assessment: Development and Use of Quality Criteria for Competence Assessment Programmes.” Doctoral Thesis, Utrecht University.

Baartman, Liesbeth, Theo Bastiaens, Paul Kirschner, and Cees van der Vleuten. 2006. “The Wheel of Competency Assessment: Presenting Quality Criteria for Competency Assessment Programs.” Studies in Educational Evaluation 32 (2): 153–70. https://doi.org/10.1016/j.stueduc.2006.04.006.

Baartman, Bastiaens, Kirschner, and van der Vleuten. 2007. “Evaluating Assessment Quality in Competence-Based Education: A Qualitative Comparison of Two Frameworks.” Educational Research Review 2 (2): 114–29. https://doi.org/10.1016/j.edurev.2007.06.001.

Basturk, Ramazan. 2008. “Applying the Many‐facet Rasch Model to Evaluate PowerPoint Presentation Performance in Higher Education.” Assessment & Evaluation in Higher Education 33 (4): 431–44. https://doi.org/10.1080/02602930701562775.

Biggs, John. 1996. “Enhancing Teaching Through Constructive Alignment.” Higher Education 32 (3): 347–64. https://doi.org/10.1007/BF00138871.

Biggs, John B., and Catherine So-kum Tang. 2011. Teaching for Quality Learning at University: What the Student Does. 4th edition. SRHE and Open University Press Imprint. Maidenhead, England New York, NY: McGraw-Hill, Society for Research into Higher Education & Open University Press.

Brennan, Robert L., ed. 2006. Educational Measurement. 4. ed. Series on Higher Education. New York: American Council on Education [u.a.].

Cronbach, Lee. 1971. “Test Validation.” In Educational Measurement, edited by L. Thorndike, 2nd ed., 443–507. Washington D.C.: American Council on Education/Praeger.

Cronbach, Lee J, and Goldine C Gleser. 1965. Psychological Tests and Personnel Decisions. Urbana: University of Illinois Press.

Cronbach, Lee J., and Paul E. Meehl. 1955. “Construct Validity in Psychological Tests.” Psychological Bulletin 52 (4): 281–302. https://doi.org/10.1037/h0040957.

Darling-Hammond, Linda, and Frank Adamson. 2014. Beyond the Bubble Test: How Performance Assessments Support 21st Century Learning. First edition. San Francisco, CA: Jossey-Bass & Pfeiffer Imprints, Wiley.

Der Vleuten, Cees P M van, and Lambert W T Schuwirth. 2005. “Assessing Professional Competence: From Methods to Programmes.” Medical Education 39 (3): 309–17. https://doi.org/10.1111/j.1365-2929.2005.02094.x.

Dienst Beroepsopleiding. 2008. “Competentieleren: Een Gedachte-Experiment: Rapport.” Brussel: Dienst Beroepsopleiding, Departement Onderwijs en Vorming.

Eisner, Elliot W. 1999. “The Uses and Limits of Performance Assessment.” The Phi Delta Kappan 80 (9): 658–60. https://www.jstor.org/stable/20439532.

Figel, J. 2007. “Key Competences for Lifelong Learning-European Reference Framework.” Luxemburg: Office for Official Publications of the European Communities.

Fitzpatrick, R., and E. Morrison. 1971. “Performance and Product Evaluation.” In Educational Measurement, edited by L. Thorndike, 2nd ed., 443–507. Washington D.C.: American Council on Education/Praeger.

Haertel, E. 2006. “Reliability.” In Educational Measurement, by Robert L. Brennan, 4th ed. Westport: Praeger Publishers.

Kane. 2006. “Validation.” In Educational Measurement, by Robert L. Brennan, 4th ed. Westport: Praeger Publishers.

Kane, M. T. 2013. “Validating the Interpretations and Uses of Test Scores.” Journal of Educational Measurement 50 (1): 1–73. https://doi.org/10.1111/jedm.12000.

Kane, Crooks, and Cohen. 1999. “Validating Measures of Performance.” Educational Measurement: Issues and Practice 18 (2): 5–17. https://doi.org/10.1111/j.1745-3992.1999.tb00010.x.

Lane, S. 2015. “Performance Assessment: The State of the Art.” In Beyond the Bubble Test, edited by Linda Darling-Hammond and Frank Adamson, 131–84. San Francisco: John Wiley & Sons, Inc. https://doi.org/10.1002/9781119210863.ch5.

Lane, Suzanne. 2010. Performance Assessment: The State of the Art. SCOPE Student Performance Assessment Series. Stanford, CA: Stanford University, Stanford Center of Opportunity Policy in Education. https://edpolicy.stanford.edu/sites/default/files/publications/performance-assessment-state-art_1.pdf.

Lane, Suzanne, and C. Stone. 2006. “Performance Assessment.” In Educational Measurement, edited by Robert L. Brennan, 4th ed., 387–432. American Council on Education/Praeger.

Lissitz, Robert W, and Feifei Li. 2011. “Standard Setting in Complex Performance Assessments: An Approach Aligned with Cognitive Diagnostic Models.” Psychological Test and Assessment Modeling 53 (4): 461–85.

Lizzio, Alf, and Keithia Wilson. 2004. “Action Learning in Higher Education: An Investigation of Its Potential to Develop Professional Capability.” Studies in Higher Education 29 (4): 469–88. https://doi.org/10.1080/0307507042000236371.

Mazzeo, J., and M. J. Zieky. 2006. “Monitoring Educational Progress with Group-Score Assessments.” In Educational Measurement, by Robert L. Brennan, 4th ed., 681–99. Westport: Praeger Publishers.

Messick. 1996. “Validity of Performance Assessments.” In Technical Issues in Large-Scale Performance Assessment, edited by G. Phillips, 198–258. Washington D.C.: National Center for Education Statistics.

Messick, S. 1989. “Validity.” In Educational Measurement, 3rd Ed, edited by R. L. Linn, 13–103. The American Council on Education/Macmillan Series on Higher Education. American Council on Education.

Newhouse, C. Paul. 2011. “Using IT to Assess IT: Towards Greater Authenticity in Summative Performance Assessment.” Computers & Education 56 (2): 388–402. https://doi.org/10.1016/j.compedu.2010.08.023.

Newhouse, Paul. 2013. “Literature Review and Conceptual Framework.” In Digital Representations of Student Performance for Assessment, edited by P. John Williams and C. Paul Newhouse, 9–28. Rotterdam: SensePublishers. https://doi.org/10.1007/978-94-6209-341-6_2.

Prodromou, Luke. 1995. “The Backwash Effect: From Testing to Teaching.” ELT Journal 49 (1): 13–25. https://doi.org/10.1093/elt/49.1.13.

Rubin, D. 1996. “A Preface Relating Alternative Assessment, Test Fairness, and Assessment Utility to Communication.” In Large Scale Assessment of Oral Communication: K–12 and Higher Education, by S. Morreale and P. Backlund, 1–4. Annandale: Speech Communication Association. https://files.eric.ed.gov/fulltext/ED399578.pdf.

Sireci, Stephen G. 2009. “Packing and Unpacking Sources of Validity Evidence: History Repeats Itself Again.” In The Concept of Validity: Revisions, New Directions, and Applications, 19–37. Charlotte, NC, US: IAP Information Age Publishing.

Stecher, Brian. 2015. “Looking Back.” In Beyond the Bubble Test, 15–52. John Wiley & Sons, Ltd. https://doi.org/10.1002/9781119210863.ch2.

Weigel, Tanja, Martin Mulder, and Kate Collins. 2007. “The Concept of Competence in the Development of Vocational Education and Training in Selected EU Member States.” Journal of Vocational Education & Training 59 (1): 53–66. https://doi.org/10.1080/13636820601145549.