„Wir brauchen dauerhaft verlässliche Strukturen für Bildungsforschungsdaten“
dipf.de: Für viele Außenstehende eher unbemerkt hat sich in den vergangenen Jahren eine breite Infrastruktur zur Sicherung und Weiterverwertung von Forschungsdaten entwickelt. Anfang dieses Jahres hat die Bundesregierung ihre allgemeine Datenstrategie veröffentlicht. Welche Implikationen sehen Sie für den Bildungsbereich und die diesbezüglichen Forschungsdaten?
Dr. Doris Bambey: Diese Datenstrategie wurde ja vor dem Hintergrund veröffentlicht, dass wir gerade eine digitale Transformation aller Lebensbereiche erfahren. Der Rohstoff und der Motor hierfür sind ganz wesentlich digitale Daten. In der Bildungsforschung haben wir zwar nicht solche riesigen Datenmengen wie beispielsweise in der Biomedizin oder in der Klimaforschung. Aber viele Fragen – rechtliche, ethische, aber auch Fragen der Zugänglichkeit – betreffen gerade auch die Bildungsforschung.
Prof. Dr. Marc Rittberger: Mit dieser Initiative zeigt die Politik, dass der Zugriff auf und die Nutzung von Daten ein zentraler Teil unseres gesellschaftlichen Selbstverständnisses ist. Das umfasst einerseits ganz wesentlich das Recht auf informationelle Selbstbestimmung, das bereits in den 1980er-Jahren vom Bundesverfassungsgericht als ein Grundrecht anerkannt worden ist. Aber es geht auch darum, dass wir als mündige Bürger*innen in einer Demokratie mit Daten verantwortungsvoll umgehen müssen und es tatsächlich auch dürfen. Das heißt, um unsere wissenschaftlichen Fragestellungen zu beantworten, müssen wir auch Zugriff auf die dafür erforderlichen Daten erhalten. In der Bildungsforschung ist das allerdings sehr schwierig. Viele Daten im Bildungsbereich sind zwar vorhanden, aber der Zugriff darauf ist nicht immer möglich.
»Es geht darum, dass wir als mündige Bürger*innen in einer Demokratie mit Daten verantwortungsvoll umgehen müssen und es tatsächlich auch dürfen.«
Das liegt in Deutschland ja unter anderem am Bildungsföderalismus, denn von Bundesland zu Bundesland sind die Vorgaben rund um die Erhebung und Bereitstellung von Bildungsdaten sehr unterschiedlich. Sehen Sie in der jetzt vorgelegten Datenstrategie Chancen zur Verbesserung?
Bambey: Darauf hoffen wir jedenfalls, denn um wissenschaftlich arbeiten zu können, benötigen wir aus allen Bundesländern vergleichbare Daten. Momentan ist es leider so, dass bestimmte Daten, etwa aus dem Kerndatensatz der KMK, in dem einem Bundesland für datenschutzkonforme Untersuchungen zugänglich sind und in dem anderen eben nicht. Auch wenn es um den Zugang zu schulstatistischen Daten der Statistischen Landesämter geht, hat die Bildungsforschung immer wieder Probleme. Als interessantes Hilfsmittel sehe ich hier die Idee der Datentreuhänderschaft bei Ämtern und Behörden, die in der Datenstrategie formuliert wurde. Im besten Fall wäre das eine neutrale Stelle, die nach klaren und transparenten Gesichtspunkten Abwägungen vornimmt zwischen den rechtlichen Vorgaben, den datentechnischen Möglichkeiten und den Bedarfen insbesondere seitens der Forschung.
Open Data, eine offene Datenkultur, ist ja inzwischen ein wichtiges Schlagwort. In diesem Zusammenhang wird in Bezug auf Forschungsdaten oft von den FAIR-Prinzipien gesprochen. Was hat es damit auf sich?
Rittberger: Die Produktion von und der Zugriff auf Daten sind als ein Schlüsselfaktor identifiziert worden – auch im Rahmen der Datenstrategie der Bundesregierung. Für Forschende müssen die Daten freilich bestimmten Anforderungen entsprechen, und da kommen wir zu den FAIR-Prinzipien. Das F in FAIR steht für „findable“, also ich muss überhaupt erst in der Lage sein, Daten zu identifizieren und zu finden, die beispielsweise für meine wissenschaftliche Fragestellung relevant sein können. Das A steht für „accessible“, nämlich wenn ich weiß, dass es in den verschiedenen Bundesländern Öffnungsstrategien gibt, dass ich dann tatsächlich auf diese Daten zugreifen kann. I ist abgekürzt für „interoperable“, das heißt, dass ich sie dann tatsächlich im Rahmen meiner Forschung verwenden und auswerten kann. Und zu guter Letzt das R meint „reusable“, dass diese Daten nachvollziehbar und nachnutzbar sein müssen, etwa für Re- und Sekundäranalysen.
Wie schätzen Sie in der Bildungsforschung die Bereitschaft der Forschenden ein, ihre Daten zur Verfügung zu stellen?
Rittberger: Frau Bambey und ich beschäftigen uns ja schon seit zwölf Jahren mit dieser Frage und versuchen, Strukturen aufzubauen. Je nach wissenschaftlicher Teilcommunity der Bildungsforschung und den verwendeten Methoden ist man da unterschiedlich weit. Bei großen Panelstudien mit standardisierten Erhebungsinstrumenten wie dem Nationalen Bildungspanel, dem Sozioökonomischen Panel und PISA war es von Anfang an das explizite Ziel, dass diese Daten der Wissenschaft zur Verfügung stehen. Wie diese Verfügbarmachung geschehen kann, wurde also von vornherein mitgedacht. In anderen Communities ist das ein Veränderungsprozess, der gerade erst begonnen hat, und das Teilen von Daten ist noch nicht immer selbstverständlich. Das gilt gerade für qualitative Erhebungen, die eher auf Interviews und kleinen Stichproben basieren und nicht in standardisierten Ergebnisdaten münden. Zugleich sind diese Daten sehr vielschichtig und reichhaltig und können ein großes Nachnutzungspotenzial entfalten. Vor einigen Jahren wurde noch häufig die Ansicht vertreten, dass nur die Verantwortlichen der Erststudien diese Daten verstehen können und dass damit keine andere Fragestellungen bearbeiten werden können. Das ist inzwischen deutlich anders, und der Fachdiskurs konzentriert sich viel mehr auf die Frage nach dem „wie“ und nicht mehr nach dem „ob“. Das heißt, hier beobachten wir einen deutlichen Kulturwandel.
Bambey: Das ist eine Frage von Vertrauensbildung, und da ist es von großem Vorteil, dass wir, also der Verbund Forschungsdaten Bildung, eine unabhängige Adresse sind und keine gebundene behördliche oder politische Einrichtung. Für uns steht der Prozess im Vordergrund, zwischen den verschiedenen zum Teil widerstreitenden Interessenlagen der Fördereinrichtungen, Behörden, Datenschützern und den Forschenden zu vermitteln. Wenn etwa Forschende Bedenken haben, dass sie durch Data Sharing ihr wertvolles Vertrauensverhältnis zu ihrem Feld belasten, heißt das für uns, hier in der Tat sehr sensibel vorzugehen und die Bedenken ganz konkret aufzugreifen. Wenn wir eine Videobeobachtung im Unterricht haben, und in diesen Aufnahmen wird ein Kind gemobbt, dann steht für uns der Schutz der Proband*innen höher als das Ziel der Nachnutzung. In solchen Fällen arbeiten wir sehr eng mit Forschenden zusammen und entwickeln gemeinsam Wege, unter welchen Bedingungen die Daten ethisch vertretbar vielleicht doch noch für Forschungszwecke zur Verfügung gestellt werden können.
Wie stark werden denn mittlerweile Daten zur Zweitverwertung abgerufen?
Rittberger: Auch das ist eine Entwicklung, die immer mehr an Fahrt aufnimmt. Gutes Datenmaterial erleichtert die Forschungsarbeit immens und spart enorme Kosten. Wenn Sie Erhebungen an Schulen durchführen wollen, müssen Sie viel organisieren, bevor Sie überhaupt mit Ihrer wissenschaftlichen Arbeit beginnen können. Sie müssen die Regelungen im jeweiligen Bundesland beachten, sich mit den Schulaufsichtsbehörden einigen, und dann schließlich die Schulen und Lehrkräfte, die Eltern und Kinder überzeugen, sich an Ihrer Studie zu beteiligen. Gerade jetzt, angesichts der Probleme und der Lernrückstände durch die Schulschließungen in der Corona-Pandemie, haben vermutlich noch viel weniger Lehrkräfte Interesse, sich an Studien zu beteiligen. Das heißt, um momentan Bildungsforschung betreiben zu können, sind wir vielfach darauf angewiesen, auf vorhandenes Datenmaterial zurückzugreifen.
Im Bildungsbereich – wie auch in allen anderen Wissenschaften – sind in den vergangenen Jahren etliche Forschungsdatenzentren entstanden, in denen die Daten für die Nachnutzung aufbereitet und gespeichert werden. Das wirkt für Außenstehende sehr unübersichtlich…
Bambey: Das ist es in der Tat, und genau aus diesem Grund haben wir seit 2013 gemeinsam mit unseren Partnern GESIS – Leibniz-Institut für Sozialwissenschaften und dem Institut zur Qualitätsentwicklung im Bildungswesen (IQB) den Verbund Forschungsdaten Bildung aufgebaut. Er ist eingebettet in ein Netzwerk von mittlerweile zehn Forschungsdatenzentren im Bildungsbereich, die allesamt so unterschiedlich und vielfältig sind wie die Bildungsforschung selbst. Jedes Forschungsdatenzentrum bringt seine spezifische Expertise mit ein. Das Portal forschungsdaten-bildung.de ist die zentrale Anlaufstelle für die Forschenden, bei der sie Daten einerseits melden und abgeben und andererseits auch recherchieren können. Beim VerbundFDB prüfen wir zunächst die eingehenden Daten und übergeben sie dann an das Forschungsdatenzentrum mit der jeweils größten fachlichen Expertise. Das macht die Lage für die Forschenden deutlich übersichtlicher und gewährleistet ein hohes Maß an Qualitätssicherung.
Wie genau muss ich mir das vorstellen? Kopiert beispielsweise die Wissenschaftlerin am Ende ihrer Arbeit ihren gesamten Ordner mit den Daten und der Studie und lädt ihn dann auf den Server des Verbunds hoch?
Bambey: Die Meldung und Lieferung der Daten geschieht nach einem standardisierten Verfahren. Nehmen wir einmal an, Sie haben eine Untersuchung zur Fehlerkultur im Unterricht vorgenommen und haben im Rahmen Ihrer Beobachtung und Befragung dazu Unterrichtsprotokolle, Interviewtranskripte, Videos etc. erstellt. Wenn Sie uns dann diese Daten zur Verfügung stellen, ist es sehr wichtig, dass Sie neben den Daten selbst auch die Kontextmaterialien, etwa Sitzpläne, Unterrichtsmaterialien etc. mitliefern, ebenso wie die Information über die Schritte, wie Sie die Daten erhoben und analysiert haben. Auch die Art, wie Sie Anonymisierungen vorgenommen haben, wie Sie transkribiert haben, all diese Dinge gehören dazu, damit Außenstehende Ihre Erhebung nachvollziehen können. So können dann andere Forschende, die Genderforschung betreiben, dieses Material dahingehend noch einmal analysieren, ob es signifikante Unterschiede zwischen Schülerinnen und Schülern gibt.
Und was passiert dann mit den Daten, welche die Forschenden beim Verbund Forschungsdaten Bildung melden?
Bambey: Wir überprüfen die Daten in einem sehr klaren Prüfprozess. Das betrifft zunächst formale und technische Aspekte, etwa ob die Dateien unversehrt, virenfrei und in einem gängigen Format vorliegen. Ganz wesentlich ist die Prüfung der datenschutz- und urheberrechtlichen Fragen. Und dann geht es natürlich um die Dokumentation der Daten. Diese müssen so beschrieben werden, dass Dritte sie nachvollziehen können. Das ist eine unserer Kernaufgaben, denn erst wenn die Daten gut beschrieben sind, können sie tatsächlich in der Bildungs- oder einer anderen Wissenschaft nachgenutzt werden.
»Wir wollen keinen Datenfriedhof erzeugen, sondern Aktivposten.«
Lehnen Sie eigentlich auch Daten ab?
Bambey: Absolut, denn wir wollen keinen Datenfriedhof erzeugen, sondern Aktivposten. Und so fragen wir am Anfang: Sind diese Daten potenziell nachnutzungswürdig? Passen sie in den Scope, den wir abdecken, haben sie schon ein Review-Verfahren durchlaufen, das eine gewisse Qualität nahelegt, sind diese Daten historisch wertvoll und sind sie so reichhaltig, dass sie auch für weitere Fragestellungen und methodische Ansätze relevant sind? Wir müssen auch in der Lage sein, Daten abzulehnen, wenn schon von vornherein klar ist, sie werden nie hinreichend nachvollziehbar sein, um nachgenutzt werden zu können, da sie nur äußerst unvollständig vorliegen.
Wie aber erreichen Sie tatsächlich die Interoperabilität dieser Daten? Damit steht und fällt ja das ganze Unterfangen mit der Nachnutzung.
Bambey: Ohne gemeinsame Standards bei den Metadaten, also den Informationen zum Thema, zur Forschungsfrage, zur Methodik der Erhebung und der Auswertung bis hin zu den Datentypen und ihre Anforderungen an die Software geht da natürlich nichts. Erst über gemeinsame Metadatenstandards und deren Austausch werden die Daten überhaupt auffindbar. Deshalb ist es wichtig, mit den Forschenden und den Kolleg*innen von den verschiedenen Datenzentren gemeinsame Terminologien zu entwickeln, gemeinsame Leitlinien, Sicherungsmaßnahmen, Evaluationsverfahren, Akkreditierungsverfahren, um aus dieser Heterogenität ein klares, qualitätsgesichertes Zusammenwirken hinzubekommen.
Rittberger: Dafür arbeiten wir auch mit den Gremien und Forschungsdatenzentren anderer Wissenschaftsdisziplinen zusammen, denn für Bildungsforscher*innen können beispielsweise auch Daten aus der Gesundheitsforschung interessant sein und umgekehrt. Aber das ist erst möglich, wenn die entsprechenden Standards verfügbar sind und wir damit darauf aufmerksam machen können, dass es in anderen Disziplinen ebenfalls relevante Daten gibt. Auch international haben wir verschiedene Kooperationen auf Ebene der Informationsstandards, beispielsweise mit der Data Documentation Initiative. Damit ist bereits international ein bestimmtes Kernset an Beschreibungsdaten geschaffen worden, und über dieses Kernset kann dann auch ein Metadatenaustausch stattfinden.
Das DIPF und die Kooperationspartner GESIS und IQB haben bei der Gemeinsamen Wissenschaftskonferenz von Bund und Ländern einen Antrag gestellt, mit dem eine Erweiterung des DIPF geplant und damit eine dauerhafte Förderung des Verbund Forschungsdaten Bildung vorgesehen ist. Was genau haben Sie da vor?
Bambey: Bisher ist der Verbund ja ein Projekt mit einer bestimmten Laufzeit. Wir haben 2013 angefangen, und unsere derzeitige Finanzierung läuft bis Ende 2021. Um aber zuverlässig Daten zu sichern und für die Zweitverwertung bereitstellen zu können, brauchen wir auch in der Bildungsforschung dauerhaft verlässliche Strukturen. Durch den Verbund gewährleisten wir Einheitlichkeit, zentrale Zugänglichkeit und die Qualitätssicherung bei der Forschungsdatenbeschreibung. Wenn dies wegfiele, dann fielen alle diese strukturbildenden Dinge weg, denn wer soll das sonst tun. Man kann nicht Langzeitarchivierung fordern und gleichzeitig die dafür zuständigen Strukturen nur kurzfristig ansetzen. Wir freuen uns daher ganz außerordentlich, dass unsere Bemühungen, eine dauerhafte Absicherung des VerbundFDB zu erreichen, erfolgreich verlaufen sind. Denn der VerbundFDB wurde in einem umfassenden Reviewverfahren mit „sehr gut“ bewertet und der zuständige Ausschuss der GWK hat auf dieser Grundlage beschlossen, dass der VerbundFDB dauerhaft als sogenannter strategischer Sondertatbestand innerhalb der Leibniz-Gemeinschaft gefördert wird. Wir erwarten die Bestätigung dieses Beschlusses durch die GWK im Juli dieses Jahres.
Rittberger: Im Rahmen der Verstetigung wollen wir die Zusammenarbeit des Verbunds mit der Bildungsforschung vertiefen. Für die Archivierung ist es wichtig zu antizipieren, wie sich die Feldforschung verändern wird, welche Themen aufkommen, und nicht zuletzt, welche Datenarten entstehen werden. Auf solche Entwicklungen müssen sich die Forschungsdateninfrastrukturen einstellen können, sowohl von den dafür benötigten technisch-organisatorischen Voraussetzungen her, aber auch um Akzeptanz herzustellen. Außerdem wollen wir unsere Angebote handhabbar und nutzerfreundlich weiterentwickeln. Dafür brauchen wir das direkte Feedback der Forschenden. Dieses miteinander verwobene Arbeiten wollen wir mit dem Sondertatbestand manifestieren. Das DIPF bildet dafür ein gutes Umfeld, da hier eine große Vielfalt an Forschung und methodischer Ausrichtung besteht.
Der Verbund Forschungsdaten Bildung ist ein Zusammenschluss des DIPF | Leibniz-Institut für Bildungsforschung und Bildungsinformation, des GESIS – Leibniz-Institut für Sozialwissenschaften und des Institut für Qualitätsentwicklung im Bildungswesen (IQB). Seit 2013 stellt er Angebote und Services für die empirische Bildungsforschung in den Bereichen Datenarchivierung und Datenbereitstellung bereit, bietet Fortbildungen zum Forschungsdatenmanagement an und berät politische Entscheidungsträger*innen und Schulaufsichtsbehörden. Dafür arbeitet er in einem Netzwerk mit weiteren Forschungsdatenzentren zusammen, um Daten mit Bezug zur Bildungsforschung zu sichern und zugänglich zu machen.
Dr. Doris Bambey ist Projektleiterin beim Verbund Forschungsdaten Bildung und Koordinatorin des Forschungsdatenzentrums Bildung beim DIPF.
Prof. Dr. Marc Rittberger ist Direktor des Informationszentrums Bildung beim DIPF. In dieser Abteilung sind die genannten Forschungsdatenaktivitäten des Instituts federführend angesiedelt.