NEPS TBT – Arbeitspaket Technologiebasiertes Testen

Das DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation trägt als Konsortialpartner zur Planung und Durchführung des Nationalen Bildungspanels (NEPS) bei. Eines der Projektschwerpunkte ist das Arbeitspaket Technologiebasiertes Testen (TBT).

Das Arbeitspaket Technologiebasiertes Testen (TBT) gehört zur Methodengruppe des NEPS und ist am DIPF im TBA-Zentrum (Zentrum für technologiebasiertes Assessment) angesiedelt. Dort steht es unter der wissenschaftlichen Leitung von Prof. Dr. Frank Goldhammer und wissenschaftlichen Co-Leitung von Dr. Daniel Schiffner sowie der operativen Leitung von Dr. Lena Engelhardt. TBT arbeitet eng mit dem Leibniz-Institut für Bildungsverläufe (LIfBi) zusammen und beschäftigt sich mit innovativen Befragungs- und Testmethoden, beispielsweise mit computer- und internetbasierter Kompetenztestung.
Das Arbeitspaket TBT unterstützt mit wissenschaftsbasierten Dienstleistungen, projektspezifischen Anpassungen von Softwareprodukten und wissenschaftlicher Begleitforschung die Umsetzung von technologiebasiertem Testen im NEPS v.a. in den Domänen Lesen und Mathematik.
NEPS-TBT stellt nicht nur wissenschaftliche Dienstleistungen bereit, sondern begleitet auch die Forschung in NEPS wissenschaftlich. Folgende Themen werden in der laufenden Projektphase erforscht:
1. Mitgestaltung und Umsetzung von Proctored vs. Unproctored Online Erhebungen
  Hierbei steht die experimentelle Untersuchung von möglichen zukünftigen Online-Erhebungsformaten und Effekte dieser Formate auf bspw. das Bearbeitungsverhalten oder die Datenqualität im Fokus. Mit den zu erprobenden Erhebungsformaten sollen im Vergleich zur klassischen Eins-zu-eins-Interviewsituation neue zukunftsträchtige Möglichkeiten ausgelotet werden. Beispielsweise könnten Personen die Kompetenztests online in Begleitung eines virtuell zugeschalteten Interviewenden (proctored mode) oder eigenständig bearbeiten (unproctored mode). Dabei werden Indikatoren für potentiell abweichendes Bearbeitungsverhalten (z.B. längere Inaktivität, Rapid Guessing, etc.) entwickelt, zur Laufzeit ausgelesen und passende Prompts ausgestaltet und als Intervention angeboten. Es soll geprüft werden, ob solche Prompts Verhaltensanpassungen bewirken können. Darüber hinaus soll untersucht werden, ob die verschiedenen Bedingungen zu einer validen Interpretation der Bearbeitungsergebnisse führen, die mit dem klassischen Eins-zu-eins-Setting vergleichbar ist.
2. Diagnostische Nutzung von Prozessindikatoren, z.B. zur Prognose der Panelbereitschaft
  Auf Basis von Logdaten sollen Prozessindikatoren extrahiert werden, die zur Modellierung von Kompetenzdaten herangezogen werden können und beispielsweise der forschungsbasierten Weiterentwicklung bestehender Skalierungsmodelle dienen. Mithilfe von Prozessindikatoren können zudem Aspekte der Datenqualität oder Missingkodierung, d.h. die Zuordnung fehlender Werte zu einer Kategorie fehlender Werte, betrachtet werden.
  Darüber hinaus sollen Prozessdaten gemeinsam mit Ergebnis- und Paradaten, wie z.B. Rückmeldezeiten, genutzt werden, um die Teilnahmebereitschaft für Folgeerhebungen vorhersagen zu können. Mit Hilfe dieser Daten können Profile erstellt werden, bei denen das Risiko eines Drop-outs (vorzeitiger Abbruch) besteht. Daraus lassen sich Maßnahmen zur Panelpflege und Incentivierung (Bieten von Anreizen) ableiten.
Forschungsthemen
- Untersuchung verschiedener Erhebungsformate im Online-Setting (z.B. Proctoring, Prompts)
- Untersuchung des Bearbeitungsverhaltens in Online-Testungen und Wirksamkeit verhaltensbezogener Interventionen
- Vorhersage der Teilnahmebereitschaft für Folgeerhebungen unter Nutzung multipler Datenquellen, wie z.B. Prozessindikatoren, Ergebnisdaten, Paradaten
- Erstellung und Validierung innovativer Item- und Antwortformate für computerbasiertes Testen
- Analyse und Validierung prozessbezogener Verhaltensdaten aus Kompetenzmessungen
- Modellierung von Bearbeitungsgeschwindigkeit
Dienstleistungen
- Bereitstellung des CBA ItemBuilder und der Testanwendung IRTlib zur Auslieferung computerbasierter Testmodule.
- Studienspezifische Begleitung in Form von Support bei der Erstellung der Testaufgaben und Unterstützung bei der Erstellung der Testmodule.
- Regelmäßige Workshop-Angebote sowie Aufbau einer Wissensdatenbank zur Unterstützung von Item-Autoren bei der eigenständigen Erstellung computerbasierter Testmodule.
- Prototypische Erstellung innovativer und neuer Aufgabenformate.
- Koordination von Anforderungen für die Weiterentwicklung des Autorenwerkzeugs CBA ItemBuilder und der Auslieferungssoftware (IRTlib) für den Einsatz im NEPS.
- Aufbereitung und Auswertung von Datenbeständen (Ergebnis- und Prozessdaten) sowie Bereitstellung von bestehenden Werkzeugen vom TBA-Zentrums zur Auswertung der erhobenen Daten.
Übergeordnetes Ziel des NEPS-TBT Projekts war die Durchführung von wissenschaftlich fundierten, international anschlussfähigen technologiebasierten Assessments in den Panel-Studien.
Fünf zentrale Innovationsschwerpunkte sollten dieser Zielerreichung beitragen: (1) schrittweise Aktualisierung von Software-Komponenten, (2) Transfer von Assessment-Innovationen (z.B. innovative Itemformate & Steigerung der Messeffizienz) in Panel-Studien, (3) Cross-Mode Linking auch auf heterogene Erhebungshardware (Tablets, Touch-Eingabe) ausweiten, (4) Datenaufbereitung aller TBT-Daten über Log-Daten, (5) automatisierte Software-Testung und Qualitätssicherung. Diese Innovationsschwerpunkte finden eine konkrete Umsetzung in den folgenden Arbeitspaketen:
1. Es soll eine Strategie zur Testung und Qualitätssicherung von studienspezifischen TBT-Modulen entwickelt werden. Diese soll durch eine automatisierte Testung eine vollständige Datenablageprüfung ermöglichen, der Qualitätssicherung fester Testzusammenstellungen dienen sowie die Prüfung adaptiver Testzusammenstellungen erlauben.
2. Die Entwicklung eines standardisierten Editors im Rahmen der aktualisierten Software-Komponenten soll die automatische Prüfung von Codebooks sowie der Testdefinition für Multistage-Tests ermöglichen.
3. Es soll ein einheitliches studienübergreifendes Konzept für die Kodierung fehlender Antworten entwickelt werden, welches Indikatoren aus Log-Daten berücksichtigt.
4. Es sollen Voraussetzungen geschaffen werden, um psychometrisch anspruchsvolle Testdesigns, beispielsweise adaptive Algorithmen, umsetzen zu können. Hierfür wird im TBA-Zentrum eine Infrastruktur entwickelt, mit deren Hilfe die CAT-Algorithmen für die Testentwicklung aus R konfiguriert und mit Simulationsstudien getestet werden können, welche operativ in die Auslieferungssoftware integriert sind.
5. Dem Paradigma der Sparsamkeit folgend, sollen Ergebnis- und Log-Daten nicht parallel aufbereitet werden sondern die Aufbereitung der Ergebnisdaten auf Basis der Log-Daten erfolgen. Hierfür wurden bspw. Kriterien für die Definition der Vollständigkeit von Log-Daten entwickelt (vgl. Kroehne & Goldhammer, 2018). Diese Entwicklungen sollen für die Erstellung von generischen Werkzeugen verwendet werden, mit deren Hilfe die Datenaufbereitung reproduzierbar und nachvollziehbar wird.
Ausgewählte Publikationen:
- Kroehne, U. & Goldhammer, F. (2018). How to conceptualize, represent, and analyze log data from technology-based assessments? A generic framework and an application to questionnaire items. Behaviormetrika, 45(2), 527–563. https://doi.org/10.1007/s41237-018-0063-y
- Deribo, T., Goldhammer, F. & Kröhne, U. (2022). Changes in the speed-ability relation through different treatments of rapid guessing. Educational and Psychological Measurement, online first. doi: 10.1177/00131644221109490
- Deribo, T., Kröhne, U. & Goldhammer, F. (2021). Model‐based treatment of rapid guessing. Journal of Educational Measurement, 58(2), 281-303. doi: 10.1111/jedm.12290
- Kröhne, U., Deribo, T. & Goldhammer, F. (2020). Rapid guessing rates across administration mode and test setting. Psychological Test and Assessment Modeling, 62(2), 144-177. doi: 10.25656/01:23630
- Kroehne, U. & Goldhammer, F. (2018). How to conceptualize, represent, and analyze log data from technology-based assessments? A generic framework and an application to questionnaire items. Behaviormetrika, 45(2), 527-563. doi: 10.1007/s41237-018-0063-y
- Engelhardt, L., Goldhammer, F., Naumann, J., & Frey, A. (2017). Experimental validation strategies for heterogeneous computer-based assessment items. Computers in Human Behavior, 76(11), 683-692. doi: 10.1016/j.chb.2017.02.020
Für die im Längsschnitt des NEPS mehrfach erhobenen Domänen Lesen, Mathematik, Naturwissenschaften und ICT Literacy wurden, basierend auf kombinierten Mode-Effekt und Linkstudien sowie mit Hilfe experimenteller Modus-Variation, Änderungen der Messinstrumente infolge der Computerisierung psychometrisch erforscht (siehe z.B. Buerger, Kroehne & Goldhammer, 2016). Dazu wurden solche Verfahren der Quantifizierung und Korrektur von Mode-Effekten untersucht und angewendet, die eine Einführung computerbasierter Kompetenztestung im NEPS ermöglichen. Forschungs- und Entwicklungsschwerpunkt lag in dieser Projektphase auf der Nutzung von Eigenschaften technologiebasierten Testens für die Weiterentwicklung und Optimierung von NEPS Kompetenztests (z.B. die Erprobung von multiplem Highlighting als Antwortformat).
Für die vertiefte Erforschung von Modus- und Settingseffekten wurde im TBA-Zentrum beispielsweise ein Verfahren zur Erfassung von Log-Daten bei der papierbasierten Testung entwickelt, welches in ausgewählten NEPS-Studien zum Einsatz gekommen ist (siehe z.B. Kroehne & Goldhammer, 2018). Mit Hilfe digitaler Kugelschreiber erfolgt dabei die Beantwortung der papierbasiert administrierten Fragen in Testheften, in welchem ein spezielles Punktmuster aufgedruckt ist (siehe u.a. Dirk et al, 2017 für eine Beschreibung). Während die Eintragungen im Testheft mit diesen digitalen Kugelschreibern für die Panelteilnehmenden so sichtbar sind als wären sie mit einem gewöhnlichen Kugelschreiber vorgenommen worden, werden die Koordinaten und Zeitstempel aller Antworten zusätzlich über einen Bluetooth-verbundenen Computer aufgezeichnet. Diese Erhebungsmethode erlaubt die Analyse von Beantwortungsprozessen, wie bspw. den Vergleich der Bearbeitungszeiten zwischen papier- und computerbasierter Testung (siehe z.B. Kroehne, Hahnel, & Goldhammer, 2019).
Ausgewählte Publikationen
- Kroehne, U., Gnambs, T., & Goldhammer, F. (2019). Disentangling setting and mode effects for online competence assessment. In H.-P. Blossfeld & H.-G. Roßbach (Hrsg.), Education as a lifelong process (2. Aufl.). Wiesbaden, Germany: Springer VS. doi: 10.1007/978-3-658-23162-0
- Buerger, S., Kroehne, U., Köhler, C. & Goldhammer, F. (2019). What makes the difference? The impact of item properties on mode effects in reading assessments. Studies in Educational Evaluation, 62, 1-9. doi: 10.1016/j.stueduc.2019.04.005
- Kroehne, U., Hahnel, C. & Goldhammer, F. (2019). Invariance of the response processes between gender and modes in an assessment of reading. Frontiers in Applied Mathematics and Statistics, 5:2. doi: 10.3389/fams.2019.00002
- Kroehne, U., Buerger, S., Hahnel, C. & Goldhammer, F. (2019). Construct equivalence of PISA reading comprehension measured with paper‐based and computer‐based assessments. Educational Measurement, 38(3), 97-111. doi: 10.1111/emip.12280
- Dirk, J., Kratzsch, G. K., Prindle, J. P., Kroehne, U., Goldhammer, F., & Schmiedek, F. (2017). Paper-Based Assessment of the Effects of Aging on Response Time: A Diffusion Model Analysis. Journal of Intelligence, 5(2), 12. doi: 10.3390/jintelligence5020012
- Buerger, S., Kroehne, U., & Goldhammer, F. (2016). The Transition to Computer-Based Testing in Large-Scale Assessments: Investigating (Partial) Measurement Invariance between Modes. Psychological Test and Assessment Modeling, 58(4), 597-616.
- Goldhammer, F., & Kroehne, U. (2014). Controlling Individuals’ Time Spent on Task in Speeded Performance Measures: Experimental Time Limits, Posterior Time Limits, and Response Time Modeling. Applied Psychological Measurement, 38(4), 255–267. doi: 10.1177/0146621613517164
In der Projektphase 2009 bis 2013, vorlaufend zum Arbeitspaket TBT, wurden am DIPF zwei vorbereitende Aufgaben durchgeführt:
NEPS AP 13 B
- Die Softwareentwicklung für ein Data Warehouse, das einen möglichst schnellen Zugriff auf die Daten unter Berücksichtigung von Datenschutz gewährleisten soll, war im TBA-Zentrum verortet.
- Ziel der Einrichtung des Data Warehouses war es, einen zentralen Datenbestand für die gesamte NEPS-Studie zu errichten und geeignete Werkzeuge zur Filterung sowie Reporterzeugung bereitzustellen.
- Data Warehouse: Resultierend aus den Anforderungen entwickelten sich drei fortschreitende Prozesse paralleler Softwareentwicklung über die gesamte Laufzeit: (1) Implementierung, Optimierung und Weiterentwicklung der Datenbanken, (2) Implementierung, Optimierung und Weiterentwicklung der ETL- und Reportingwerkzeug und (3) Implementierung, Optimierung und Weiterentwicklung des Webportals.
- Mit dem Data Warehouse sollten sowohl die aus den vier Erhebungswellen gewonnenen Daten als auch die Werkzeuge zur Filterung und Reporterzeugung im Anschluss der gesamten Forschungsgemeinschaft zur Verfügung stehen.
NEPS AP 13 C
- Zur Vorbereitung der Testausführung auf elektronischer Basis wurden empirische Erhebungen durchgeführt, um mögliche Unterschiede zwischen papierbasierten und computerbasierten Tests zu identifizieren (Quantifizierung von Mode-Effekten) und um Möglichkeiten der Verbindung zu papierbasierten Testergebnissen und computerbasierten Testergebnissen zu erforschen (Cross-Mode Linking).
- Die Mode-Effekt-Studien (Äquivalenzstudien kombiniert mit Linkingstudien des NEPS) wurden durchgeführt, um eine Testausführung auf technologischer Basis vorzubereiten. Das Ziel der Mode-Effekt-Studien bestand darin, die Vergleichbarkeit (Äquivalenz) von papierbasierten Assessments (PBA) und computerbasierten Assessments (CBA) anhand unterschiedlicher Kriterien zu überprüfen. Die Organisation und Durchführung der Mode-Effekt-Studien erfolgte zusammen mit Säule 1 (Competence development in the life course).
Ausgewählte Publikationen:
- Kroehne, U., & Martens, T. (2011). Computer-based competence tests in the national educational panel study: The challenge of mode effects. Zeitschrift Für Erziehungswissenschaft, 14(S2), 169– doi: 10.1007/s11618-011-0185-4
- Rölke, H. (2012). The ItemBuilder: A Graphical Authoring System for Complex Item Development. In T. Bastiaens & G. Marks (Hrsg.), Proceedings of E-Learn: World Conference on E-Learning in Corporate, Government, Healthcare, and Higher Education 1 (S. 344-353). Chesapeake, VA: AACE.
Dieses Projekt erfolgt in Zusammenarbeit mit...
- Leibniz Institut für Bildungsverläufe (Bamberg)
- Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik an der Universität Kiel (IPN)
- Prof. Dr. Frank Goldhammer
- Dr. Daniel Schiffner

Status:	Laufendes Projekt
Schwerpunkt:	Bildung in der digitalen Welt
Abteilung:	Lehr- und Lernqualität in Bildungseinrichtungen
Arbeitsbereich:	Technology-Based Assessment
Bildungsbereiche:	Außerschulisches Lernen, Hochschule, Schule
Laufzeit:	01/2023 – 12/2027
Finanzierung:	Drittmittelprojekt

NEPS TBT – Arbeitspaket Technologiebasiertes Testen

Forschungsthemen

Dienstleistungen

NEPS AP 13 B

NEPS AP 13 C