Woordenlijst

Afgeleide score Afgeleide scores worden uit ruwe scores getransformeerd. Ruwe scores geven enkel aan hoeveel vragen/taken een leerling correct heeft opgelost en zijn daarom niet geschikt als basis voor vergelijkingen. Afgeleide scores, zoals bijvoorbeeld percentielrankings en schaalscores, laten daarentegen toe om vergelijkingen te maken tussen toetsscores.
Betrouwbaarheid Verwijst naar de consistentie van scores over replicaties van een toets of van beoordelingen heen. De aard en kwaliteit van de respons van een leerling op een toets kunnen variëren van de ene steekproef van taken naar de andere, of van het ene moment van toetsafname naar het andere, zelfs onder gecontroleerde omstandigheden. Verschillende beoordelaars kunnen bovendien andere scores toekennen aan dezelfde prestatie.
Competentie Verwijst naar de bekwaamheid om specifieke combinaties van kennis, vaardigheden en attitudes in te zetten bij het volbrengen van een specifieke taak, relevant voor persoonlijke, professionele of maatschappelijke activiteiten.
Construct Het theoretische concept dat men door middel van de toets wenst te meten.
Construct-irrelevante variantie Verwijst naar variantie in een score die resulteert uit iets anders (één of meerdere irrelevante constructen) dan het construct dat men beoogde te meten en zorgt ervoor dat systematische ruis in de toetsscores wordt geïntroduceerd.
Construct-Onderrepresentatie Dit houdt in dat de toets belangrijke aspecten (inhoud en/of processen) van het beoogde construct niet vat. Het gevolg is dat de betekenis die aan de toetsscores gehecht kan worden, verengd wordt.
Criteriumgerefereerde toets Is een toets waarin inhoudsstandaarden - datgene wat leerlingen moeten kennen en kunnen - de maatstaf vormen voor een het al of niet behalen van een bepaalde prestatie- of competentieniveau (in tegenstelling tot normgerefereerde beoordelingen waarbij een vooraf vastgelegde slaagratio de maatstaf vormt).
Criteriumsituatie Is de reële context waarin de competentie die men beoogt te meten, vorm krijgt. Criteriumtaken zijn de taken die in die reële context worden uitgevoerd.
Extrapoleren De mogelijkheid tot het extrapoleren van scores impliceert dat de prestaties op de toetstaken een goede indicator zijn van prestaties op criteriumtaken uit de alledaagse context.
Generaliseren De mogelijkheid tot het generaliseren van toetsscores houdt in dat de betekenis van een specifieke toetsscore zich uitstrekt overheen replicaties (bv. naar taak, beoordelaar en/of afnamemoment), getrokken uit het toetsdomein. Algemeen geldt dat naarmate het aantal onafhankelijke observaties met betrekking tot elk van deze facetten (d.i. de steekproefomvang) toeneemt en naarmate de meetprocedure gestandaardiseerd verloopt, de generaliseerbaarheid toeneemt.
IRT (item respons theorie) Is een statistische theorie die gebruikt maakt van modellen om de prestatie op een toets te schatten. Dit gebeurt op basis van karakteristieken van zowel personen als items, waarop de performance verondersteld is gebaseerd te zijn.
Kwaliteit Vatten we op als een combinatie van psychometrische elementen zoals validiteit en betrouwbaarheid en ‘alternatieve’ criteria zoals authenticiteit, transparantie en eerlijkheid. Deze verschillende kwaliteitscriteria worden voortdurend tegen elkaar afgewogen, waarbij ook gekeken wordt naar de haalbaarheid van de opzet van de toets in termen van tijd, financiële middelen en infrastructuur.
‘Low stakes’-toetsen Zijn toetsen met een lage inzet (bv. voor de leerlingen of voor de school). Toetsen met het oog op kwaliteitsmonitoring op systeemniveau, die alleen geaggregeerde resultaten en dus geen informatie op individueel leerling- of schoolniveau opleveren, zijn hier een voorbeeld van. Hiertegenover staan ‘high stakes’-toetsen, waarbij de inzet net hoog is, zoals bijvoorbeeld een toets die bepaalt of een leerling slaagt of niet in een bepaald leerjaar.
Monitoring op systeemniveau Toetsen die monitoring op systeemniveau beogen zijn grootschalige toetsen die rapporteren over wat groepen van leerlingen kennen en kunnen, in relatie tot vooraf vastgelegde onderwijsdoelstellingen. Omdat de resultaten worden gerapporteerd op systeemniveau, hebben ze geen repercussies voor individuele leerlingen, en worden ze als ‘low-stakes’-toetsen beschouwd.
Performance assessment Betreft beoordeling (van competenties) waarbij gebruik wordt gemaakt van (levensechte) taken, relevant voor de beoogde competenties.
Recalibratiesets Zijn vooraf gescoorde antwoorden die in een opfrissingssessie gebruikt worden om de beoordelaars de standaarden opnieuw in herinnering te brengen.
Standaardisering Het zorgen voor uniformisering van afname- en scoringsprocedures met het oog op vergelijkbaarheid van toetsscores overheen contexten.
Steekproefvariabiliteit Verwijst naar veranderlijkheid in de toetsscores, veroorzaakt door variaties in taken, beoordelaars en/of afnamemomenten; met andere woorden naar de mate waarin de toetsscore varieert van steekproef tot steekproef (i.c. van taken, beoordelaars en/of afnamemomenten). Hoe groter de steekproefvariabiliteit, hoe groter de meetfout.
Toevallige ruis Toevallige ruis of toevallige meetfout wordt veroorzaakt door factoren die de toetsscores op toevallige wijze beïnvloeden. Toevallige ruis heeft geen systematisch effect op de toetsscores op de volledige steekproef. Bij herhaalde metingen worden de toetsscores op toevallige wijze nu eens de hoogte, dan weer de laagte ingestuurd. Er zit dus een zekere spreiding op. Hiertegenover staat systematische ruis (of systematische meetfout), die de toetsscores systematisch de hoogte ofwel de laagte in stuurt. Bij herhaling van de meting (met dezelfde toets) zal dezelfde afwijking geconstateerd worden.
Validiteit Verwijst hier specifiek naar de mogelijkheid om scores op een toets te generaliseren naar het toetsdomein en vervolgens te extrapoleren naar het beoogde competentiedomein.