Seminar für Sprachwissenschaft

TüBa-D/Z Lesartenannotationen

Manuell mit GermaNet-Lesarten annotierte TüBa-D/Z

Die TüBa-D/Z Baumbank wurde manuell mit Lesarten des deutschen Wortnetzes GermaNet annotiert. Ziel hierbei ist die Erstellung eines Goldstandards für Word Sense Disambiguation. Die zugrundeliegende Textressource, die TüBa-D/Z Baumbank, ist ein deutscher Zeitungskorpus, der bereits hochqualitative, manuelle Annotationen auf verschiedenen Sprachebenen enthält. Als Lesarteninventar, das für die Annotation der Lesarten verwendet wird, dient GermaNet, das deutsche Pendant des englischen Princeton WordNets. Mit den Lesartenannotation für 109 Wörter (30 Nomen und 79 Verben), die zusammen 17 910 Vorkommen in der TüBa-D/Z aufweisen, stellt die Baumbank momentan das größte manuell mit Lesarten annotierte Korpus dar.

Mehr Informationen zu den Lesartenannotationen, dem Annotationsprozess, sowie den annotierten Lemmata können Sie untenstehenden Papieren entnehmen.

Die Lesartenannotationen sind in Release 9.1 der Baumbank verfügbar.

 

Referenz

Sofern Sie die Lesartenannotationen der TüBa-D/Z im Rahmen eines Forschungsthemas oder einer wissenschaftlichen Arbeit verwenden, möchten wir Sie bitten folgende Papiere entsprechend zu zitieren:

 

Verena Henrich and Erhard Hinrichs: Consistency of Manual Sense Annotation and Integration into the TüBa-D/Z Treebank. In Proceedings of the 13th International Workshop on Treebanks and Linguistic Theories (TLT13), Tübingen, Germany, December 2014, pp. 62-74.

[Paper zum Downloaden: https://hinrichs.sfs.uni-tuebingen.de/homepages/eh/Publications/tlt13-proceedings.pdf]

 

Verena Henrich and Erhard Hinrichs: Extending the TüBa-D/Z Treebank with GermaNet Sense Annotation. In Iryna Gurevych, Chris Biemann, and Torsten Zesch (eds.): Language Processing and Knowledge in the Web, Lecture Notes in Computer Science, Vol. 8105, 2013, pp. 89-96.

[Paper zum Downloaden: http://link.springer.com/chapter/10.1007/978-3-642-40722-2_9]

 

Kontakt

Verena Henrich
Eberhard Karls Universität Tübingen
Department of Computational Linguistics
Wilhelmstr. 19 D-72074
Tübingen, Germany
Fax: +49 - 7071 - 29 5214