Corpora

Stuttgart-Tübingen Tagset - STTS

Das Stuttgart-Tübingen Tagset besteht aus 54 part-of-speech (Wortarten-) tags zur Annotation deutscher Korpora. Es kann derzeit als Standard für das Deutsche angesehen werden.

Tübinger Baumbank des Deutschen / Zeitungskorpus - TüBa-D/Z

Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand.

Tübinger Baumbank des Deutschen / Dependency Parsed TüBa-D/DP

TüBa-D/DP ist eine maschinell annotierte Baumbank des Deutschen mit Dependenzstruktur. TüBa-D/DP bietet qualitativ hochwertige syntaktische Annotationen für eine große Menge zeitgenössischer deutscher Texte.

TüPP-D/Z

Tübinger Partiell Geparstes Korpus des Deutschen / Zeitungskorpus - TüPP-D/Z

TüPP-D/Z ist eine Sammlung von Artikeln aus der Zeitung "die tageszeitung" (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen.

Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz von 1999. Die Artikel stammen aus dem Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und umfassen mehr als 200 Millionen Wörter.

WebCAGe

Web-Harvested Corpus Annotated with GermaNet Senses - WebCAGe

WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein Domänen-unabhängiger Korpus, der aus dem Web geharvested wurde und semi-automatisch mit Wortbedeutungen des deutschen Wortnetzes GermaNet annotiert wurde. Damit eine gewisse Qualität garantiert werden kann, wurden alle automatischen Annotationen manuell überprüft.

Index Thomisticus Baumbank

Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus der Werke von Thomas von Aquin. Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus aus drei Werken von Thomas von Aquin. Sie umfasst 170.030 Tokens bzw. 9.497 getaggte und Dependenz-annotierte Sätze in lateinischer Sprache.

TüBa-D/W

TüBa-D/W is a large treebank of modern written german, that follows common annotations standards and is freely available under a permissive license. The treebank is based on Wikipedia text and consists of 36.1 million sentences (615 million tokens) in CONLL-X format.