Uni-Tübingen

Newsletter Uni Tübingen aktuell Nr. 2/2019: Forschung

Daten für die Forschung von morgen

Forschungsdatenmanagement soll wissenschaftliche Daten nachhaltig sichern und zugänglich machen

Forschungsdaten sind so vielfältig wie die wissenschaftlichen Disziplinen: Das Spektrum reicht von Messdaten über Text- und Bildmaterial bis hin zu konkreten Objekten. Das Forschungsdatenmanagement zielt darauf, solche Informationen zu strukturieren und nachhaltig zu speichern. Das garantiert eine gute Auffindbarkeit und Verfügbarkeit für weitere Forschungen. Es gewährleistet auch, dass Ergebnisse überprüft und gegebenenfalls reproduziert werden können. Die Universität Tübingen macht verschiedene Angebote, um ihre Forscherinnen und Forscher in diesem Bereich zu unterstützen. Mit FDAT, dem Forschungsdatenarchiv Tübingen, gibt es dazu einen fächerübergreifenden Service. Weitere Angebote sind auf bestimmte Disziplinen zugeschnitten.

"Mit dem Forschungsdatenmanagement werden sich viele Wissenschaftlerinnen und Wissenschaftler vermehrt auseinander setzen müssen, denn es gibt entsprechende Vorgaben von Drittmittelgebern", sagt Dr. Sven Nahnsen, Direktor des Zentrums für Quantitative Biologie (QBiC). Mit einem Antrag bei den großen Forschungsförderorganisationen wie der DFG muss seit einigen Jahren auch ein Datenmanagementplan eingereicht werden. Er soll gewährleisten, dass die Forschungsdaten eines Projekts den FAIR-Prinzipien entsprechen: Findability, Accessibility, Interoperability, Reusability. Damit sollen Daten in Verzeichnissen auffindbar und zugänglich sein – so, dass Forschende auch an anderen Standorten und mit unterschiedlichen Systemen darauf zugreifen können, um sie weiter zu nutzen. Nahnsen verweist auf eine Studie, nach der 80 Prozent der wissenschaftlichen Daten zehn Jahre nach Publikation nicht mehr auffindbar sind. "Ist eine Forschungsarbeit erst einmal abgeschlossen, sind viele Daten einfach weg", bedauert er.

Diesen Schwund zu unterbinden, ist auch der Bundesregierung ein Anliegen. Mit der Nationalen Forschungsdateninfrastruktur (NFDI) gibt es seit 2018 eine deutschlandweite Initiative, um Kooperationen im Datenmanagement voranzubringen. Bis 2028 stellen Bund und Länder dafür jährlich bis zu 90 Millionen Euro bereit. Ziel ist es, ein bundesweites Netzwerk mit Diensten und Beratungsangeboten aufzubauen. Ein guter Zugang zu Forschungsdaten gilt auch als Wettbewerbsvorteil in der internationalen Wissenschaftslandschaft.

Die Universität Tübingen hat intern bereits ein solches Angebot aufgebaut: Das Forschungsdatenarchiv FDAT wird vom eScience-Center in Zusammenarbeit mit der Universitätsbibliothek (UB) und dem Zentrum für Datenverarbeitung betrieben. "Wir sind die erste Anlaufstelle zum Forschungsdatenmanagement an der Universität", sagt Dr. Matthias Lang, der Leiter des Zentrums. Der Schwerpunkt von FDAT liege zwar auf den Geistes- und Sozialwissenschaften, grundsätzlich sei man jedoch für alle Disziplinen offen. "Unser Team besteht aus Fachleuten, die sich mit Forschungsarbeiten und wissenschaftlichen Fragestellungen bestens auskennen", so Lang. Das Team begleitet Projekte von der Antragstellung bis zum Abschluss und unterstützt auch bei der Erstellung eines Datenmanagementplans. FDAT erlaubt zudem die Verknüpfung mit Diensten der UB, wie der Leiter der dortigen IT-Abteilung, Olaf Brandt, erläutert. So können etwa Open-Access-Publikationen mit den entsprechenden Forschungsdaten verbunden werden.

Die fachspezifischen Repositorien in Tübingen bieten optimierte Infrastrukturen für die jeweiligen Disziplinen. Das Team des EU-Projekts CLARIN (kurz für Common Language Resources and Technology Infrastructure) hat über zehn Jahre Erfahrung in der sprachbasierten Forschung. Das Projekt hat acht deutsche und 19 europäische Partner, der deutsche Zweig CLARIN-D wird von Tübingen aus koordiniert. "Wir bieten Unterstützung für alle, die mit Digitalisaten rund um die Sprache arbeiten", erklärt Dr. Thorsten Trippel vom Seminar für Sprachwissenschaft, der CLARIN mitbetreut. "Dazu gehören Texte, Tonaufnahmen oder Videos von gesprochener Sprache." Zielgruppe seien vor allem die Philologien und die Geschichtswissenschaft, es gebe auch Anknüpfungspunkte zur Kognitionswissenschaft. Wie FDAT unterstützt auch CLARIN bereits vor Projektbeginn, darüber hinaus werden Werkzeuge angeboten, um Daten zu analysieren, zu bearbeiten und zu visualisieren. Nicht zuletzt beschickt CLARIN fachspezifische Suchmaschinen, so dass die Auffindbarkeit für die Scientific Community gewährleistet ist.

Wie CLARIN der sprachbasierten Forschung bietet das QBiC den Lebenswissenschaften ein "Rundum-Paket" an Services. Hier fallen Hochdurchsatzdaten an, sogenannte Omics-Daten. "Am sinnvollsten ist es, wenn schon die Datengenerierung über uns läuft", sagt QBiC-Direktor Nahnsen. Sein Team stellt auch Algorithmen zur Datenanalyse bereit, die auf die jeweilige Forschungsfrage zugeschnitten sind. Damit lassen sich aus großen Rohdatenmengen die relevanten Informationen herausfiltern, etwa zu Mutationen in der DNA. Das Zentrum für Quantitative Biologie ist wegen seiner Expertise im Umgang mit Multi-Omics-Daten, bei denen zum Beispiel Proteom- und Genom-Daten zugleich verarbeitet werden, auch ein wichtiger Dienstleister für Forschungseinrichtungen außerhalb Tübingens. Auch das QBiC speichert seine Daten gemäß den Vorgaben der DFG für mindestens zehn Jahre. Gerade mit modernen Methoden des maschinellen Lernens ließen sich auch aus alten Daten noch neue Informationen gewinnen, sagt Nahnsen – auch das ein gutes Argument für das Forschungsdatenmanagement.

Unerlässlich beim Datenmanagement ist vor allem die Pflege der sogenannten Metadaten. Sie beschreiben, um welche Art von Datensätzen es sich handelt, und machen damit eine gezielte Suche nach bestimmten Informationen erst möglich. In welcher Sprache liegt eine Ressource vor? Wann und wo ist sie entstanden? Ist es ein Text oder eine Audioaufnahme? In den Lebenswissenschaften beschreiben typische Metadaten zum Beispiel, welche Organismen untersucht und welche Zustände dabei betrachtet wurden. "Es gibt ein Grundschema von Metadaten, die immer gebraucht werden", erklärt Olaf Brandt von der UB. Darüber hinaus seien die Standards von Fach zu Fach sehr unterschiedlich; in den Naturwissenschaften gebe es eher einheitliche Vorgaben als in den Geistes- und Sozialwissenschaften.

Metadaten stehen auch im Fokus der Arbeit von Albrecht Baur. Er ist Doktorand im Sonderforschungsbereich CAMPOS in den Geo- und Umweltwissenschaften. Baur möchte unter anderem einheitliche Standards für Metadaten entwickeln, mit denen sich Daten sehr differenziert finden lassen. "Die sinnvolle Anreicherung von Datensätzen mit Metadaten ist zwar zeitaufwändig, aber gewinnbringend", erklärt Baur. Es gelte, die notwendigen Informationen zu identifizieren, mit denen ein Forschungsergebnis nachvollziehbar wird. Im Rahmen von CAMPOS entwickelt Baur auch eine Plattform, auf der die Mitglieder des SFB Forschungsdaten einstellen, bearbeiten, mit Metadaten anreichern und austauschen können. Je mehr Metadaten, desto detaillierter die Suchmöglichkeiten – in den breit gefächerten Geowissenschaften mit ganz unterschiedlichen Daten ist das eine besondere Herausforderung. Baur hofft, im Rahmen seiner Dissertation Grundlagen zu erarbeiten, von denen zukünftig auch andere Forschungsprojekte profitieren können. Zur langfristigen Speicherung sollen die CAMPOS-Daten in das gesamtuniversitäre Forschungsdatenarchiv FDAT einfließen.

Ob universitätsinterne Dienste oder bundesweite Initiativen: Ein gutes Forschungsdatenmanagement ist eine Grundlage der Wissenschaft, und es steht und fällt mit dem Engagement der einzelnen Forscherinnen und Forscher. Einen Datenschwund zu verhindern ist eine Aufgabe von der Doktorarbeit bis zum großen Drittmittelprojekt. Mit guter Pflege bleiben die Daten von heute auch zukünftig erhalten – für die Forschung von morgen.

Tina Schäfer