Die Arbeit mit historischen, aber auch modernen Drucken und Handschriften kann erheblich vereinfacht werden, wenn ein maschinenlesbarer und durchsuchbarer Volltext vorliegt. Diese lassen sich mittels OCR (Optical Character Recognition) bzw. HTR (Handwritten Text Recognition) erzeugen.
Ein Programm, das dabei hilft, ist die Transkriptionsplattform Transkribus. Gerade für Druckschriften, aber auch für einige Handschriften wie z. B. deutsche Kurrentschrift lassen sich bereits ohne großen Eigenaufwand oftmals gute bis sehr gute Ergebnisse erzielen.
Für einen ersten Test können Sie einfach Bilddateien in Transkribus.ai hochladen, die Sprache auswählen und einstellen, ob eine Hand- oder Druckschrift vorliegt.
Wenn Sie größere Dokumente haben und diese weiterbearbeiten oder ein vielleicht passenderes Texterkennungsmodell auswählen wollen, bietet TranskribusLite einen leichten Einstieg. In der Browserversion des Programms können Sie das Layout bearbeiten, unter aktuell 125 öffentlichen Texterkennungsmodellen für verschiedene Sprachen und Schriftsysteme wählen, selbst transkribieren oder eine automatische Transkription korrigieren, Texte und Strukturelemente taggen sowie eigene Texterkennungsmodelle trainieren. Sie können Ihre Dokumente in Collections ordnen und mit anderen Usern gemeinsam an diesen arbeiten.
Die Desktop-Version von Transkribus bietet das größte Spektrum an Funktionen. Zusätzlich zu den Funktionen von TranskribusLite enthält der Expert Client z.B. die Suchfunktion Keyword Spotting, Hinzuschaltung eines Language Models bei der Texterkennung, erweiterte Funktionen der Layoutbearbeitung (z.B. Tabellen und Strukturmodelltraining) und zusätzliche Import-/Exportformate.
Jeder Account erhält pro Monat 100 kostenlose Credits. Damit können ca. 100 Seiten handschriftlicher Text und ca. 600 Seiten gedruckter Text erkannt werden.
Studierende, Doktoranden und Lehrende haben die Möglichkeit, eine Kostenübernahme durch ein Stipendium zu beantragen.
Daneben werden unterschiedliche Subskriptionspläne angeboten. Für Informationen dazu, Unterstützung bei der Mittelberechnung für Projekte etc. wenden Sie sich an uns.
Für die Auswahl eines öffentlichen Texterkennungsmodells sind folgende Kriterien von Bedeutung: Sprache, Zeit und Schriftart.
Sie wissen nicht genau, welche Schrift Sie vor sich haben? Hier finden Sie einige Beispiele mit Vorschlägen für möglicherweise passende Texterkennungsmodelle. Je nachdem, wie ähnlich die Schrift des eigenen Dokuments dem Material ist, auf dessen Grundlage das Texterkennungsmodell trainiert wurde, umso besser ist das Ergebnis.
Weitere Informationen zum Thema automatische Texterkennung und zu anderen Softwares finden Sie auf der Homepage des gemeinsam von den Universitätsbibliotheken Tübingen und Mannheim betriebenen Kompetenzzentrums OCR. Eine Empfehlung für die für Sie beste OCR-Methode generiert der OCR-Recommender oder senden Sie uns einfach einige Beispielseiten.
Für Fragen bei der Anwendung oder wenn Sie daran interessiert sind, Methoden der automatischen Texterkennung in Ihr Studium, Ihre wissenschaftliche Arbeit oder ein Projekt einzubinden, nehmen Sie an unserer offenen OCR-Sprechstunde teil oder kontaktieren Sie Corwin Schnell.
Our website uses cookies. Some of them are mandatory, while others allow us to improve your user experience on our website. The settings you have made can be edited at any time.
or
Essential
in2cookiemodal-selection
Required to save the user selection of the cookie settings.
3 months
be_lastLoginProvider
Required for the TYPO3 backend login to determine the time of the last login.
3 months
be_typo_user
This cookie tells the website whether a visitor is logged into the TYPO3 backend and has the rights to manage it.
Browser session
ROUTEID
These cookies are set to always direct the user to the same server.
Browser session
fe_typo_user
Enables frontend login.
Browser session
Videos
iframeswitch
Used to show all third-party contents.
3 months
yt-player-bandaid-host
Is used to display YouTube videos.
Persistent
yt-player-bandwidth
Is used to determine the optimal video quality based on the visitor's device and network settings.
Persistent
yt-remote-connected-devices
Saves the settings of the user's video player using embedded YouTube video.
Persistent
yt-remote-device-id
Saves the settings of the user's video player using embedded YouTube video.
Persistent
yt-player-headers-readable
Collects data about visitors' interaction with the site's video content - This data is used to make the site's video content more relevant to the visitor.
Persistent
yt-player-volume
Is used to save volume preferences for YouTube videos.
Persistent
yt-player-quality
Is used to save the quality settings for YouTube videos.
Persistent
yt-remote-session-name
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-session-app
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-fast-check-period
Saves the settings of the user's video player using embedded YouTube video.
Browser session
yt-remote-cast-installed
Saves the user settings when retrieving a YouTube video integrated on other web pages
Browser session
yt-remote-cast-available
Saves user settings when retrieving integrated YouTube videos.
Browser session
ANID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
2 years
SNID
Google Maps - Google uses these cookies to store user preferences and information when you view pages with Google Maps.
1 month
SSID
Used to store information about how you use the site and what advertisements you saw before visiting this site, and to customize advertising on Google resources by remembering your recent searches, your previous interactions with an advertiser's ads or search results, and your visits to an advertiser's site.
6 months
1P_JAR
This cookie is used to support Google's advertising services.
1 month
SAPISID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
2 years
APISID
Used for targeting purposes to profile the interests of website visitors in order to display relevant and personalized Google advertising.
6 months
HSID
Includes encrypted entries of your Google account and last login time to protect against attacks and data theft from form entries.
2 years
SID
Used for security purposes to store digitally signed and encrypted records of a user's Google Account ID and last login time, enabling Google to authenticate users, prevent fraudulent use of login credentials, and protect user data from unauthorized parties. This may also be used for targeting purposes to display relevant and personalized advertising content.
6 months
SIDCC
This cookie stores information about user settings and information for Google Maps.
3 months
NID
The NID cookie contains a unique ID that Google uses to store your preferences and other information.
6 months
CONSENT
This cookie tracks how you use a website to show you advertisements that may be of interest to you.
18 years
__Secure-3PAPISID
This cookie is used to support Google's advertising services.
2 years
__Secure-3PSID
This cookie is used to support Google's advertising services.
6 months
__Secure-3PSIDCC
This cookie is used to support Google's advertising services.
6 months