Corpora

Stuttgart-Tübingen Tagset - STTS

Stuttgart-Tübingen Tagset - STTS

Das Stuttgart-Tübingen Tagset besteht aus 54 part-of-speech (Wortarten-) tags zur Annotation deutscher Korpora. Es kann derzeit als Standard für das Deutsche angesehen werden.

TüBa-D/S

Tübinger Baumbank des Deutschen / Spontansprache - TüBa-D/S

(die ehemalige Verbmobil German Treebank)

Die Tübinger Baumbank des Deutschen / Spontansprache (TüBa-D/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 38 000 Sätze bzw. 360 000 Wörter. Die Annotation erfolgte von Hand.

TüBa-D/Z

Tübinger Baumbank des Deutschen / Zeitungskorpus - TüBa-D/Z

Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand.

TüBa-E/S

Tübinger Baumbank des Englischen / Spontansprache - TüBa-E/S

(die ehemalige Verbmobil English Treebank)

Die Tübinger Baumbank des Englischen / Spontansprache (TüBa-E/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 30 000 Sätze bzw. 310 000 Wörter. Die Annotation erfolgte von Hand.

TüBa-J/S

Tübinger Baumbank des Japanischen / Spontansprache - TüBa-J/S

 (die ehemalige Verbmobil Japanese Treebank)

 Die Tübinger Baumbank des Japanischen / Spontansprache (TüBa-J/S) ist ein syntaktisch annotiertes Korpus auf der Grundlage von spontansprachlichen Dialogen, die manuell transliteriert wurden. Sie wurde im Projekt Verbmobil erstellt und umfasst ca. 18 000 Sätze bzw. 160 000 Wörter. Die Annotation erfolgte von Hand. Die Lizenz umfasst auch die Dependenzversion, die im CoNLL-X Shared Task verwendet wurde.

TüPP-D/Z

Tübinger Partiell Geparstes Korpus des Deutschen / Zeitungskorpus - TüPP-D/Z

TüPP-D/Z ist eine Sammlung von Artikeln aus der Zeitung "die tageszeitung" (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen.

 Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz von 1999. Die Artikel stammen aus dem Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und umfassen mehr als 200 Millionen Wörter.

WebCAGe

Web-Harvested Corpus Annotated with GermaNet Senses - WebCAGe

WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein Domänen-unabhängiger Korpus, der aus dem Web geharvested wurde und semi-automatisch mit Wortbedeutungen des deutschen Wortnetzes GermaNet annotiert wurde. Damit eine gewisse Qualität garantiert werden kann, wurden alle automatischen Annotationen manuell überprüft.

Index Thomisticus Baumbank

Index Thomisticus Baumbank

Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus der Werke von Thomas von Aquin. Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus aus drei Werken von Thomas von Aquin. Sie umfasst  170.030 Tokens bzw. 9.497 getaggte und Dependenz-annotierte Sätze in lateinischer Sprache.

TüBa-D/W

TüBa-D/W

TüBa-D/W is a large treebank of modern written german, that follows common annotations standards and is freely available under a permissive license. The treebank is based on Wikipedia text and consists of 36.1 million sentences (615 million tokens) in CONLL-X format.