University Library

Service "Automatische Texterkennung für Drucke und Handschriften"

Die Arbeit mit historischen, aber auch modernen Drucken und Handschriften kann erheblich vereinfacht werden, wenn ein maschinenlesbarer und durchsuchbarer Volltext vorliegt. Diese lassen sich mittels OCR (Optical Character Recognition) bzw. HTR (Handwritten Text Recognition) erzeugen.

Ein Programm, das dabei hilft, ist die Transkriptionsplattform Transkribus. Gerade für Druckschriften, aber auch für einige Handschriften wie z. B. deutsche Kurrentschrift lassen sich bereits ohne großen Eigenaufwand oftmals gute bis sehr gute Ergebnisse erzielen.

Transkribus.ai

Für einen ersten Test können Sie einfach Bilddateien in Transkribus.ai hochladen, die Sprache auswählen und einstellen, ob eine Hand- oder Druckschrift vorliegt.

  • der Dienst funktioniert ohne Registrierung
  • generell ist hier die Nutzung kostenlos
  • es gibt nur eine begrenzte Seitenzahl
  • hierbei ist keine eigene Auswahl des Texterkennungsmodells möglich

TranskribusLite

Wenn Sie größere Dokumente haben und diese weiterbearbeiten oder ein vielleicht passenderes Texterkennungsmodell auswählen wollen, bietet TranskribusLite einen leichten Einstieg. In der Browserversion des Programms können Sie das Layout bearbeiten, unter aktuell 125 öffentlichen Texterkennungsmodellen für verschiedene Sprachen und Schriftsysteme wählen, selbst transkribieren oder eine automatische Transkription korrigieren, Texte und Strukturelemente taggen sowie eigene Texterkennungsmodelle trainieren. Sie können Ihre Dokumente in Collections ordnen und mit anderen Usern gemeinsam an diesen arbeiten.

  • hierfür ist eine Registrierung notwendig
  • für die automatische Texterkennung fallen Gebühren an, alle übrigen Funktionen sind kostenlos (jeder Account erhält ein Freikontingent bei der Registrierung)
  • TranskribusLite und der Expert Client sind interoperabel
  • einen Einführungskurs finden Sie bei Youtube

Transkribus Expert Client

Die Desktop-Version von Transkribus bietet das größte Spektrum an Funktionen. Zusätzlich zu den Funktionen von TranskribusLite enthält der Expert Client z.B. die Suchfunktion Keyword Spotting, Hinzuschaltung eines Language Models bei der Texterkennung, erweiterte Funktionen der Layoutbearbeitung (z.B. Tabellen und Strukturmodelltraining) und zusätzliche Import-/Exportformate.

  • hierfür ist eine Registrierung notwendig
  • ein Programm-Download ist erforderlich
  • für die automatische Texterkennung fallen Gebühren an, alle übrigen Funktionen sind kostenlos (jeder Account erhält ein Freikontingent bei der Registrierung)
  • TranskribusLite und der Expert Client sind interoperabel
  • einen Einführungskurs finden Sie bei Youtube

Texterkennung

Kosten

Jeder Account erhält ein Startguthaben von 500 Credits. Damit können ca. 400-500 Seiten handschriftlicher Text und ca. 2500-3000 Seiten gedruckter Text erkannt werden.

Für Studierende, Doktoranden und Lehrveranstaltungen gibt es die Möglichkeit, eine Kostenübernahme durch ein Stipendium zu beantragen.

Für weitere Informationen, Unterstützung bei der Mittelberechnung für Projekte etc. wenden Sie sich an uns.

Auswahl eines Texterkennungsmodells

Für die Auswahl eines öffentlichen Texterkennungsmodells sind folgende Kriterien von Bedeutung: Sprache, Zeit und Schriftart.

Sie wissen nicht genau, welche Schrift Sie vor sich haben? Hier finden Sie einige Beispiele mit Vorschlägen für möglicherweise passende Texterkennungsmodelle. Je nachdem, wie ähnlich die Schrift des eigenen Dokuments dem Material ist, auf dessen Grundlage das Texterkennungsmodell trainiert wurde, umso besser ist das Ergebnis.

Unterstützung durch die Universitätsbibliothek

Für weitere Fragen bei der Anwendung oder wenn Sie daran interessiert sind, Methoden der automatischen Texterkennung in Ihr Studium, Ihre Arbeit oder ein Projekt einzubinden, kontaktieren Sie Dorothee Huff vom Projekt OCR-BW (Kompetenzzentrum OCR der Universitätsbibliotheken Mannheim und Tübingen): dorothee.huffspam prevention@uni-tuebingen.de.