eScience-Center
Datenformate für die Langzeitarchivierung von Forschungsdaten

Es existiert eine große Vielfalt an unterschiedlichen Datenformaten, von denen jedoch vergleichsweise wenige für die langfristige (nach Leitlinie der deutschen Forschungsgemeinschaft über 10 Jahre) Aufbewahrung von Forschungsdaten geeignet sind. Grundsätzlich sollten quelloffene, nicht-proprietäre und standardisierte Datenformate zum Zwecke der Archivierung gewählt werden. Die Universität Tübingen folgt dieser Leitlinie mit der institutionellen Forschungsdatenumgebung FDAT, dass zu diesem Zweck Mindestanforderungen für die Veröffentlichung von Forschungsdaten und praktische Empfehlungen zur Auswahl geeigneter Datenformate, sowie der Konvertierung von Formaten erstellt hat.

Mindestanforderungen

Zur Publikation von Forschungsdaten in FDAT sind die im nachfolgenden Abschnitt empfohlenen (Kategorie A), sowie auch bedingt geeigneten Formate (Kategorie B) zugelassen. Sollte ein spezifisches Format nicht in der Auflistung enthalten sein, wenden Sie sich bitte an das eScience-Center. Bitte beachten Sie jedoch, dass die zukünftige Nutzung (Nachnutzung im Sinne der FAIR-Prinzipien) durch problematische Formate massiv erschwert werden kann und benutzen Sie möglichst Dateiformate aus der Kategorie A bzw. B.

Archivfähigkeit verschiedener Datenformate

In Anlehnung an den Vorgaben der Fachstelle Digitaler Datenerhalt ETH Zürich sind die Einschätzungen und Empfehlungen zur Auswahl archivfähiger Datenformate im Sinne der Übersichtlichkeit zusammengefasst. Dabei werden analog zur Eingruppierung der Fachstelle die Dateiarten Text, Tabellen, Rohdaten und Workspace, Rastergrafik, Vektorgrafik, CAD-Formate, Audio und Video-Formate unterschieden. Weitere Informationen zu den spezifischen Datenformaten und der Archivtauglichkeit/Archivfähigkeit finden Sie u.a. bei der Koorinationsstelle für die dauerhafte Archivierung elektronischer Grundlagen (KOST), Forschungsdaten.info, der Library of Congress und der Harvard Library. Sollten Ihre Standarddateiformate nicht aufgeführt sein und Sie besitzen Informationen bezüglich der Bewertung der Archivfähigkeit lassen Sie es uns wissen. Wir würden uns freuen, die hier zusammengetragenen Informationen zukünftig zu erweitern. 

Text - Formate

Empohlene Formate (A)

  • PDF/A (*.pdf)
  • Unformatierter Text (*.txt, *.asc, *.c, *.h, *.cpp, *.m, *.py, *.r usw.) kodiert als ASCII, UTF-8, oder UTF-16 mit Byte Order Mark
  • XML (inklusive XSD/XSL/XHTML, etc.; wobei Schema und Buchstabenkodierung explizit im File angegeben werden sollen)

Bedingt geeignete Formate (B)

  • PDF (*.pdf), wobei die Fonts im PDF File eingebettet sein müssen
  • Unformatierter Text (*.txt, *.asc, *.c, *.h, *.cpp, *.m, *.py, *.r usw.) (ISO 8859-1 kodiert)
  • Rich Text Format (*.rtf)
  • HTML und XML (Die ASCII Texte sind langfristig lesbar; externe Links möglichst vermeiden)
  • Word *.docx
  • PowerPoint *.pptx
  • LaTeX und TeX (Die ASCII Texte sind langfristig lesbar; allenfalls benutzte lizenzfreie Softwarepakete mit Spezialfonts und resultierendes PDF sollten mitgeliefert werden)
  • OpenDocument Formate (*.odm, *.odt, *.odg, *.odc, *.odf)

Nicht geeignete Formate (C)

  • Word *.doc
  • PowerPoint *.ppt

Tabellen - Formate

Empohlene Formate (A)

  • Komma- oder Tab-begrenzte Text Files (*.csv, *.txt)

Bedingt geeignete Formate (B)

  • Excel *.xlsx (Containerformat)
  • OpenDocument Formate (*.odm, *.odt, *.odg, *.odc, *.odf)

Nicht geeignete Formate (C)

  • Excel *.xls, *.xlsb (binäre Formate)

Rohdaten und Workspace

Bedingt geeignete Formate (B)

  • ASCII Text ist langfristig nutzbar, die spätere maschinelle Lesbarkeit ist jedoch unter Umständen aufwendig.
  • S-Plus (*.sdd) am ehesten als Text-Dateien speichern.
  • Matlab *.mat am ehesten in HDF5 Format speichern. Nichttriviale Matlab *.mat ASCII Files vermeiden, denn sie können mit load nicht gelesen werden (siehe Tabelle 2).
  • Network Common Data Format oder NetCDF (*.nc, *.cdf)
  • Hierarchical Data Format (HDF5) (*.h5, *.hdf5, *.he5)

Nicht geeignete Formate (C)

  • Binäre Dateien wie Matlab Dateien *.mat (binär), R Dateien *.RData

Rastergrafik - Formate

Empohlene Formate (A)

  • TIFF (*.tif) (unkomprimiert, möglichst TIFF 6.0, Part 1: Baseline TIFF) TIFF wird gegenüber PNG und JPEG2000 bevorzugt.
  • Portable Network Graphics (*.png, compression level 0)
  • JPEG2000 (*.jp2, verlustfreie Komprimierung)
  • Digital-Negative-Format (*.dng) falls man zusätzlich zu TIFF Files auch Rohdaten von digitalen Fotos behalten möchte.

Bedingt geeignete Formate (B)

  • TIFF (*.tif) (komprimiert)
  • GIF (*.gif)
  • BMP (*.bmp)
  • JPEG/JFIF (*.jpg)
  • JPEG2000 (verlustbehaftete Komprimierung) (*.jp2)

Vektorgrafik - Formate

Empohlene Formate (A)

  • SVG ohne JavaScript binding (*.svg)

Nicht geeignete Formate (C)

  • Grafik InDesign (*.indd), Illustrator (*.ait)
  • Encapsulated Postscript (*.eps)
  • Photoshop (*.psd)

CAD - Formate

Empohlene Formate (A)

  • AutoCAD Drawing (*.dwg)
  • Drawing Interchange Format, AutoCAD (*.dxf) 
  • Extensible 3D, X3D (*.x3d, *.x3dv, *.x3db)

Ton / Audio - Formate

Empohlene Formate (A)

  • WAV (*.wav) (unkomprimiert, pulse-code moduliert)

Bedingt geeignete Formate (B)

  • Advanced Audio Coding (*.mp4)
  • MP3 (*.mp3)

Video - Formate

Empohlene Formate (A)

  • FFV1 Codec (ab Version 3) in Matroska Container (*.mkv)

Bedingt geeignete Formate (B)

  • MPEG-2 (*.mpg,*.mpeg)
  • MP4, heisst auch MPEG-4 Part 14 (*.mp4)
  • QuickTime Movie (*.mov) 2)
  • Audio Video Interleave (*.avi)
  • Motion JPEG 2000 (*.mj2, *.mjp2)

Nicht geeignete Formate (C)

  • Windows Media Video (*.wmv)

Empfehlungen zur Formatkonvertierung

Die folgenden Open-Source-Programme eignen sich für die Konvertierung von Dateien in archivwürdige Formate:

Audio/Video:  ffmpeg
Grafiken: imagemagick
Text: unoconv
Datenbanken:  SIARD

Weitere Empfehlungen zur Formatkonvertierung können Sie der nachfolgenden Auflistung entnehmen. Hierbei gilt es zu beachten, dass bei der Konvertierung von Dateiformaten möglicherweise Informationen verloren gehen. Werden bspw. Excel-Tabellen in *.csv Dokumente konvertiert, so bleiben Makros, Formeln oder eingebettete Objekte nach der Konvertierung nicht erhalten.

Text

  • Sie sollten Word- und PowerPoint-Dateien möglichst zu PDF/A-1b Dateien konvertieren. Für Microsoft-Dateien, Word- oder PowerPoint-Dateien führt gemäss unseren Tests folgende Methode häufig zu akzeptablen Resultaten: Die Datei mit Word oder PowerPoint öffnen, dann unter Menu „Datei“ „Drucken“ auswählen. Bei Drucker „Adobe PDF“ auswählen. Das Feld „Druckereigenschaften“ anwählen und dort „PDF/A-1b: 2005 (RGB)“ auswählen. Dann Schaltfläche „Drucken“. Vgl. auch die ausführliche Anleitung zu diesem Thema.
  • LaTeX (oder TeX) möglichst zu PDF/A konvertieren und beide Versionen veröffentlichen.
  • Sie müssen die Qualität von Konvertierungen sorgfältig visuell überprüfen. Achten Sie dabei insbesondere auf Formeln, Sonderzeichen, Umlaute, spezielle Fonts, Textschreibfehler, Auswählen und Suchen im Text, Tabellen, Farben, transparente Objekte, Kommentare, Vektorgraphiken sowie mehrfache Zeichenebenen.

Tabellen

  • Excel *.xls Dateien zu *.xlsx konvertieren
  • Für wichtige eingebettete Objekte (wie z. B. Figuren) sollten sie möglichst auch eine Kopie als separate Datei abspeichern.
  • Tabellen könnten Sie folgendermassen zu ASCII Text-Dateien (*.csv) konvertieren: In Excel die einzelnen Blätter als *.csv Datei speichern, in R Tabellen mit write.csv speichern und in S-Plus mit „write.table“ als *.sdd Datei speichern.

Workspace Dump in Matlab, R oder S-Plus

  • Matlab *.mat Files als v7.3 MAT Dateien abspeichern (mit save -v7.3 x.mat), weil es dadurch einem HDF5-basierten Standard folgt. (HDF5 ist ein offener Standard für Tabellen, Mediadaten und komplexe Datenstrukturen.)
  • Der R Workspace sollte mit dem Packet rhadf5 in HDF5 Format gespeichert werden. Die S-Plus Funktion data.dump produziert ein File, welches mit der R-Funktion data.restore gelesen werden kann.
  • Für komplexe Datenstrukturen ist es meist nicht sinnvoll den Workspace als ASCII zu speichern, weil dies auf schwer lesbare Dateien führt. (Einen solchen ASCII Workspace Dump erhält man in R mit save(…, ascii = TRUE), in Matlab mit save file.txt –ascii und in S-Plus mit dump().)
  • Wichtige Tabellen im Workspace sollten zusätzlich als CSV-Datei gespeichert werden.

Grafik

Vektorgrafikdateien werden langfristig eher schwieriger zu öffnen sein als Rastergrafikdateien (Bitmaps). Auch das Einbetten von Vektorgrafik in PDF-Dateien ist fehleranfällig. Dateien in speziellen Vektorgrafik Formaten, wie InDesign (*.indd) oder Illustrator (*.ait), sollten Sie möglichst auch in einem geeigneteren Format speichern (vgl. empfohlene Formate oben). Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen (Schärfe, Auflösung, Farben, transparente Objekte, Beschriftungen).

Sie sollten die Qualität der Konvertierung sorgfältig visuell überprüfen, bevor Sie diese zur Archivierung einreichen.