Corpora
Stuttgart-Tübingen Tagset - STTS
Stuttgart-Tübingen Tagset - STTS
Das Stuttgart-Tübingen Tagset besteht aus 54 part-of-speech (Wortarten-) tags zur Annotation deutscher Korpora. Es kann derzeit als Standard für das Deutsche angesehen werden.
TüBa-D/Z
Tübinger Baumbank des Deutschen / Zeitungskorpus - TüBa-D/Z
Die Tübinger Baumbank des Deutschen / Zeitungskorpus (TüBa-D/Z) ist ein syntaktisch annotiertes Korpus auf der Grundlage der Zeitung "die tageszeitung" (taz). Die Annotation erfolgte von Hand.
TüBa-D/DP
Tübinger Baumbank des Deutschen / Dependency Parsed TüBa-D/DP
TüBa-D/DP ist eine maschinell annotierte Baumbank des Deutschen mit Dependenzstruktur. TüBa-D/DP bietet qualitativ hochwertige syntaktische Annotationen für eine große Menge zeitgenössischer deutscher Texte.
TüPP-D/Z
Tübinger Partiell Geparstes Korpus des Deutschen / Zeitungskorpus - TüPP-D/Z
TüPP-D/Z ist eine Sammlung von Artikeln aus der Zeitung "die tageszeitung" (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen.
Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz von 1999. Die Artikel stammen aus dem Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und umfassen mehr als 200 Millionen Wörter.
WebCAGe
Web-Harvested Corpus Annotated with GermaNet Senses - WebCAGe
WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein Domänen-unabhängiger Korpus, der aus dem Web geharvested wurde und semi-automatisch mit Wortbedeutungen des deutschen Wortnetzes GermaNet annotiert wurde. Damit eine gewisse Qualität garantiert werden kann, wurden alle automatischen Annotationen manuell überprüft.
Index Thomisticus Baumbank
Index Thomisticus Baumbank
Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus der Werke von Thomas von Aquin. Die Index Thomisticus Baumbank ist ein syntaktisch annotiertes Korpus aus drei Werken von Thomas von Aquin. Sie umfasst 170.030 Tokens bzw. 9.497 getaggte und Dependenz-annotierte Sätze in lateinischer Sprache.