Item Fit – Statistische und praktische Signifikanz von nicht modellkonformen Items in empirischen Bildungsstudien

Im Rahmen des Projekts werden im Kontext von groß angelegten Bildungsstudien Items, die eine Fehlpassung zum Modell aufweisen, sowohl hinsichtlich der statistischen als auch der praktischen Signifikanz untersucht.

Projektbeschreibung

Die statistischen Auswertungen groß angelegter Bildungsstudien greifen in der Regel auf Messmodelle aus der Item Response Theory (IRT) zurück. Damit valide Aussagen getroffen werden können, ist eine Passung der erhobenen Daten auf das IR-Messmodell essenziell. U.a. gehört zu einer Evaluierung dieses Modellfits auch die Untersuchung des Item-Fits, ob und wie gut also die beobachteten Antworten auf ein Item zu den erwarteten Antworten passen (siehe Abbildung). Neben der Existenz einer Vielzahl an verschiedenen Fit-Statistiken unterscheiden sich in der Praxis innerhalb der Studien sowohl bei gleichen als auch bei unterschiedlichen Fit-Statistiken die Cut-Off-Werte, sodass kein einheitliches Bild darüber besteht, unter welchen Voraussetzungen ein Item aus dem Test ausgeschlossen oder als modellkonform bezeichnet wird. Ferner ist zudem von Interesse, die praktische Signifikanz von Items, die einen Misfit aufweisen, näher zu beleuchten.

Projektziele

Aus der beschriebenen Problematik resultieren zwei Projektziele:

  1. Ableitung von Richtlinien für groß angelegte Bildungsstudien, die es erlauben, Empfehlungen zu Item-Fit-Statistiken und den damit einhergehenden Cut-Off-Kriterien zu geben
  2. Entwicklung von Ansätzen und Methoden im Bereich der Zusammenhangsanalysen sowie des Kompetenzvergleichs über die Zeit, die der Bestimmung praktischer Signifikanz von Items dienen, deren Fit nicht modellkonform ist.

Um diese Ziele erreichen zu können, werden für den ersten Teil Simulationsstudien herangezogen, mit Hilfe derer einzelne Faktoren hinsichtlich ihrer Auswirkungen auf die Fit-Maße analysiert werden sollen. Zudem sollen Effektstärken für den Item Misfit untersucht werden, was in einem engen Zusammenhang mit der Stärke des Modellverstoßes steht.

Für das zweite Projektziel werden zur Validierung der Befunde hinsichtlich der Methoden zur Erfassung praktischer Bedeutsamkeit von nicht modellkonformen Items empirische herangezogen. Da in der aktuellen Forschung zumeist Haupterhebungsdaten, mit denen eine Vorselektion von Items einhergeht, hinsichtlich der Untersuchung von praktischer Bedeutsamkeit von Item Misfit im Fokus stehen, sollen im Rahmen dieses Projekts Feldtestdaten mit in die Untersuchungen einbezogen werden. In Kooperation mit dem Zentrum für internationale Bildungsvergleichsstudien werden anhand der PISA 2018 Feldtestdaten zum einen Kriterien zur Beurteilung der Größe der Bedeutsamkeit des Item Misfits zur Diskussion gestellt und diese zum anderen auf konkrete Fragestellungen angewendet. Hierunter fällt beispielsweise die Evaluation, wie bedeutsam die Unterschiede in der Kompetenzverteilung der Personenparameter mit und ohne Einbezug der statistisch misfitting Items zu bewerten sind.

Finanzierung

Das Projekt wird von der Deutschen Forschungsgemeinschaft (DFG) gefördert (KO 5637/1-1).

Kooperationen

Dr. Alexander Robitzsch (Leibniz-Institut für die Pädagogik der Naturwissenschaften und Mathematik [IPN], Kiel)

Prof. Dr. Matthias von Davier (Lynch School of Education and Human Development, Chestnut Hill, MA, USA)

Dr. Jörg-Henrik Heine (Zentrum für internationale Bildungsvergleichsstudien, München)

Projektleitung

Projektdaten

Status:
Abgeschlossenes Projekt
Abteilung: Lehr- und Lernqualität in Bildungseinrichtungen
Laufzeit:
04/2018 – 07/2021
Finanzierung:
Drittmittelprojekt