Seminar für Sprachwissenschaft

TüBa-D/DP release 5

TüBa-D/DP ist eine maschinell annotierte Baumbank des Deutschen mit Dependenzstruktur. TüBa-D/DP bietet qualitativ hochwertige syntaktische Annotationen für eine große Menge zeitgenössischer deutscher Texte. Die Annotationen orientieren sich dabei so eng wie möglich an den Annotationsrichtlinien der TüBa-D/Z UD (Çöltekin et al., 2017).

Die Annotationsebenen in TüBa-D/DP enthalten Informationen über:

  • Wortarten ('universal' oder 'STTS' Schema)
  • Morphologie (UD und TüBa-D/Z)
  • Lemmas
  • Topologische Felder
  • Dependenzrelationen (UD)

Eine ausführlichere Beschreibung der Annotationsrichtlinien ist im Stylebook zu finden.

Subcorpora

Subcorpus Genre Sätze Tokens Download Anschauen / Durchsuchen
Europarl Parlamentsdokumente 2.2M 55M Download TüNDRA
Politicial speeches politische Reden 619,152 12.8M Download TüNDRA
Die Tageszeitung (taz) Zeitung 29.9M 393.7M Bei uns anfragen  
Wikipedia Encyclopedia 45.5M 917.5M Download TüNDRA

Anschauen und Durchsuchen

Einige Teilkorpora der TüBa-D/DP Baumbank (Europarl, Wikipedia, political speeches) können über die Webanwendung TüNDRA durchsucht und abgefragt werden.

Lizenzen

Referenz

Sofern Sie die TüBa-D/DP Baumbank im Rahmen eines Forschungsthemas oder einer wissenschaftlichen Arbeit verwenden, möchten wir Sie bitten folgendes Paper zu zitieren:

TüBa-D/DP stylebook, Daniël de Kok and Sebastian Pütz, 2019, Seminar für Sprachwissenschaft, University of Tübingen