Universitätsbibliothek

Service "Automatische Texterkennung für Drucke und Handschriften"

Die Arbeit mit historischen, aber auch modernen Drucken und Handschriften kann erheblich vereinfacht werden, wenn ein maschinenlesbarer und durchsuchbarer Volltext vorliegt. Diese lassen sich mittels OCR (Optical Character Recognition) bzw. HTR (Handwritten Text Recognition) erzeugen.

Ein Programm, das dabei hilft, ist die Transkriptionsplattform Transkribus. Gerade für Druckschriften, aber auch für einige Handschriften wie z. B. deutsche Kurrentschrift lassen sich bereits ohne großen Eigenaufwand oftmals gute bis sehr gute Ergebnisse erzielen.

Transkribus.ai

Für einen ersten Test können Sie einfach Bilddateien in Transkribus.ai hochladen, die Sprache auswählen und einstellen, ob eine Hand- oder Druckschrift vorliegt.

  • der Dienst funktioniert ohne Registrierung
  • generell ist hier die Nutzung kostenlos
  • es gibt nur eine begrenzte Seitenzahl
  • hierbei ist keine eigene Auswahl des Texterkennungsmodells möglich

TranskribusLite

Wenn Sie größere Dokumente haben und diese weiterbearbeiten oder ein vielleicht passenderes Texterkennungsmodell auswählen wollen, bietet TranskribusLite einen leichten Einstieg. In der Browserversion des Programms können Sie das Layout bearbeiten, unter aktuell 125 öffentlichen Texterkennungsmodellen für verschiedene Sprachen und Schriftsysteme wählen, selbst transkribieren oder eine automatische Transkription korrigieren, Texte und Strukturelemente taggen sowie eigene Texterkennungsmodelle trainieren. Sie können Ihre Dokumente in Collections ordnen und mit anderen Usern gemeinsam an diesen arbeiten.

  • hierfür ist eine Registrierung notwendig
  • für die automatische Texterkennung fallen Gebühren an, alle übrigen Funktionen sind kostenlos (jeder Account erhält ein Freikontingent bei der Registrierung)
  • TranskribusLite und der Expert Client sind interoperabel
  • ein Einführungsvideo finden Sie bei Youtube

Transkribus Expert Client

Die Desktop-Version von Transkribus bietet das größte Spektrum an Funktionen. Zusätzlich zu den Funktionen von TranskribusLite enthält der Expert Client z.B. die Suchfunktion Keyword Spotting, Hinzuschaltung eines Language Models bei der Texterkennung, erweiterte Funktionen der Layoutbearbeitung (z.B. Tabellen und Strukturmodelltraining) und zusätzliche Import-/Exportformate.

  • hierfür ist eine Registrierung notwendig
  • ein Programm-Download ist erforderlich
  • für die automatische Texterkennung fallen Gebühren an, alle übrigen Funktionen sind kostenlos (jeder Account erhält ein Freikontingent bei der Registrierung)
  • TranskribusLite und der Expert Client sind interoperabel
  • einen Einführungskurs finden Sie bei Youtube

Texterkennung

Kosten

Jeder Account erhält pro Monat 100 kostenlose Credits. Damit können ca. 100 Seiten handschriftlicher Text und ca. 600 Seiten gedruckter Text erkannt werden.

Studierende, Doktoranden und Lehrende haben die Möglichkeit, eine Kostenübernahme durch ein Stipendium zu beantragen.

Daneben werden unterschiedliche Subskriptionspläne angeboten. Für Informationen dazu, Unterstützung bei der Mittelberechnung für Projekte etc. wenden Sie sich an uns.

Auswahl eines Texterkennungsmodells

Für die Auswahl eines öffentlichen Texterkennungsmodells sind folgende Kriterien von Bedeutung: Sprache, Zeit und Schriftart.

Sie wissen nicht genau, welche Schrift Sie vor sich haben? Hier finden Sie einige Beispiele mit Vorschlägen für möglicherweise passende Texterkennungsmodelle. Je nachdem, wie ähnlich die Schrift des eigenen Dokuments dem Material ist, auf dessen Grundlage das Texterkennungsmodell trainiert wurde, umso besser ist das Ergebnis.

Unterstützung durch die Universitätsbibliothek

Weitere Informationen zum Thema automatische Texterkennung und zu anderen Softwares finden Sie auf der Homepage des gemeinsam von den Universitätsbibliotheken Tübingen und Mannheim betriebenen Kompetenzzentrums OCR. Eine Empfehlung für die für Sie beste OCR-Methode generiert der OCR-Recommender oder senden Sie uns einfach einige Beispielseiten.

Für Fragen bei der Anwendung oder wenn Sie daran interessiert sind, Methoden der automatischen Texterkennung in Ihr Studium, Ihre wissenschaftliche Arbeit oder ein Projekt einzubinden, nehmen Sie an unserer offenen OCR-Sprechstunde teil oder kontaktieren Sie Dorothee Huff.