WebCAGe
Web-Harvested Corpus Annotated with GermaNet Senses
WebCAGe (kurz für: Web-Harvested Corpus Annotated with GermaNet Senses) ist ein Sense-annotiertes Korpus, das mit Wortbedeutungen des deutschen Wortnetzes GermaNet annotiert wurde. Das Korpus ist Domänen-unabhängig und wurde mit Hilfe des deutschen Wiktionary automatisiert aus dem Web geharvested. Damit eine gewisse Qualität garantiert werden kann, wurden alle automatischen Annotationen manuell überprüft.
WebCAGe wurde in zwei Schritten erstellt:
- Mapping von Lexical Uunits aus GermaNet auf Einträge in Wiktionary. Weitere Informationen bezüglich des Mappings können Sie auf folgender Webseite finden.
- Extraktion der Beispielsätze aus Wiktionary sowie der in den Beispielsätzen verlinkten Seiten - mit Hilfe des Mappings aus Schritt 1. (Weitere Einzelheiten zur Erstellung von WebCAGe finden Sie in untenstehendem Paper.)
Das Korpus besteht aus den folgenden vier Hauptbestandteilen:
- Beispielsätze aus Wiktionary: durchschnittlich 1-3 Beispielsätze pro Lesart.
- Wikipedia-Artikel: Wikipedia-Artikel, in denen einzelne Target-Wörter mit Lesarten annotiert sind.
- Gutenberg-Texte: Auszüge aus Dokumenten des deutschen Gutenberg-Projekts. Diese Dateien enthalten annotierte Target-Wörter mit einem Kontext von +-5 Sätzen vor und nach dem Satz, in dem das Target-Wort vorkommt.
- Externe Webseiten: Texte aus deutschen Online-Zeitungen oder anderen deutschen Webseiten.
Weitere Einzelheiten zur Erstellung von WebCAGe und warum dieser Korpus aus vier Teilen besteht können Sie untenstehendem EACL-Paper entnehmen.
Download
WebCAGe besteht aus den folgenden vier Hauptbestandteilen, von denen zwei bereits frei verfügbar zum Download bereitstehen:
- Beispielsätze aus Wiktionary: "Creative Commons Attribution/Share-Alike"-Lizenz
- Version 1.0.1, kompatibel mit GermaNet 7.0: WebCAGe_v1.0.1_wiktionary.zip
- Version 2.0, kompatibel mit GermaNet 8.0: WebCAGe_v2.0_wiktionary.zip
- Version 3.0, kompatibel mit GermaNet 9.0: WebCAGe_v3.0_wiktionary.zip
- Wikipedia-Artikel: "Creative Commons Attribution/Share-Alike"-Lizenz
- Version 1.0.1, kompatibel mit GermaNet 7.0: WebCAGe_v1.0.1_wikipedia.zip
- Version 2.0, kompatibel mit GermaNet 8.0: WebCAGe_v2.0_wikipedia.zip
- Version 3.0, kompatibel mit GermaNet 9.0: WebCAGe_v3.0_wikipedia.zip
- Gutenberg-Texte: (noch) nicht verfügbar; Lizenzvereinbarung wird gerade besprochen
- Externe Webseiten: können aus lizenzrechtlichen Gründen nicht frei online verfügbar gemacht werden
Referenz
Sofern Sie WebCAGe im Rahmen eines Forschungsthemas oder einer wissenschaftlichen Arbeit verwenden, möchten wir Sie bitten folgendes Paper zu zitieren:
Verena Henrich, Erhard Hinrichs, and Tatiana Vodolazova: WebCAGe -- A Web-Harvested Corpus Annotated with GermaNet Senses. In Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics (EACL 2012), Avignon, France, April 2012, pp. 387-396.
[Paper zum Downloaden: http://aclweb.org/anthology/E/E12/E12-1039.pdf]
Kontakt
Eberhard Karls Universität Tübingen
Department of Computational Linguistics
Wilhelmstr. 19 D-72074
Tübingen, Germany
Fax: +49 - 7071 - 29 5214