Seminar für Sprachwissenschaft

Korpora mit Lesarten-Annotationen


Lesarten-Annotation TüBa-D/Z Treebank

Die TüBa-D/Z-Baumbank ist ein syntaktisch annotiertes deutsches Zeitungskorpus, das auf Daten aus den täglichen Ausgaben der ‚taz‘ (die tageszeitung) basiert. Die TüBa-D/Z- Baumbank wurde manuell mit Lesarten von GermaNet annotiert mit dem Ziel, einen Goldstandard für die Disambiguierung von Wortbedeutungen zu schaffen. Die Lesarten-Annotationen sind als Teil der Version 9.1 der Baumbank frei verfügbar.

Weitere Informationen zu den Lesarten-Annotationen finden Sie Hier.

Um die Baumbank-Daten (einschließlich der Lesarten-Annotationen) zu erhalten, folgen Sie bitte den Schritten, beschrieben Hier.

Lesarten-annotiertes WebCAGe

WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein domänenunabhängiges Korpus, das automatisiert aus dem Web extrahiert und halbautomatisch mit Lesarten aus GermaNet annotiert wurde. Um eine gute Qualität zu gewährleisten, wurden alle automatischen Annotationen manuell verifiziert. 

Sie können WebCAGe von der folgenden Website herunterladen.