Komposita in GermaNet
Inhalt
Beschreibungsnavigation
Überblick
Komposition ist ein sehr produktiver Wortbildungsprozess im Deutschen. Für viele Anwendungen ist es hilfreich, Informationen über die Bestandteile der Komposita zu haben, da die semantische Interpretation in der Regel auf der Bedeutung dieser Bestandteile beruht. In GermaNet werden daher Nominalkomposita in ihre Bestandteile, d.h. Modifikator und Kopf, zerlegt. Die Aufteilung identifiziert die unmittelbaren Bestandteile auf jeder Analyseebene und spiegelt somit den rekursiven Charakter von Komposita wider, die mehr als zwei Bestandteile haben, wie z.B. Autobahnanschlussstelle. Die unmittelbaren Bestandteile dieses Kompositums sind Autobahn und Anschlussstelle, wobei sich der erste Bestandteil dann weiter in Auto und Bahn und der zweite weiter in Anschluss und Stelle aufspaltet (siehe Abbildung 1).
Was das Zerlegen von deutschen Komposita zu einer herausfordernden Aufgabe macht, ist die Tatsache, dass es sich bei Komposita nicht immer um eine einfache Verkettung von Wörtern handelt, sondern Fugenelemente eingefügt werden oder Buchstaben am Wortende des Modifikators wegfallen können (Henrich & Hinrichs, 2011). In GermaNet werden alle Modifikatoren lemmatisiert, und wenn ein Modifikator in Bezug auf seine Wortklasse mehrdeutig ist (aufgrund einer Konversion), werden beide Möglichkeiten angegeben:
- Laufschuhe: lauf- (en) [Verb] und (der) Lauf [Nomen]
- Baustelle: bau- (en) [Verb] und (der) Bau [Nomen]
Das Zerlegen der Komposita wird in GermaNet durch einen automatischen Algorithmus unterstützt, der mehrere einzelne Tools zur Segmentierung von Komposita kombiniert. Weitere Informationen zur automatischen Zerlegung entnehmen Sie bitte dem unten genannten Papier. Alle automatisch segmentierten Komposita werden manuell nachkorrigiert und mit relevanten Eigenschaften versehen, bevor sie in GermaNet eingefügt werden.
Eigenschaften
Die folgenden Eigenschaften werden für Modifikatoren und/oder Köpfe angegeben:
Abkürzung
Wenn ein Bestandteil des Kompositums eine Abkürzung ist, wird er entsprechend gekennzeichnet.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
SIM-Karte | SIM (abbreviation) | Karte |
ISO-Norm | ISO (abbreviation) | Norm |
Bonus-CD | Bonus | CD (abbreviation) |
Affixoid
Affixoide sind Morpheme mit einem besonderen Status zwischen gebundenen und freien Morphemen. Da sie eine klar zugeordnete Bedeutung haben, ist es sinnvoll, die jeweiligen Wörter zu trennen. Das gebundene Morphem wird als Affixoid bezeichnet.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Grundfrage | grund (affixoid) | Frage |
Riesenchance | riesen (affixoid) | Chance |
Hauptsaison | haupt (affixoid) | Saison |
Generalschlüssel | general (affixoid) | Schlüssel |
Fremdwort
Wenn ein Bestandteil des Kompositums kein deutsches Wort ist, wird es als Fremdwort bezeichnet. Beachten Sie, dass diejenigen Bestandteile, die zwar aus einer anderen Sprache übernommen sind, aber heutzutage als Lehnwörter verwendet werden und die in einem deutschen Standardwörterbuch (wie z.B. dem Duden) definiert sind, in GermaNet nicht als Fremdwörter betrachtet werden (z.B. Drink und Pool in den Beispielen unten).
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Longdrink | long (Fremdwort) | Drink |
Swimmingpool | swimming (Fremdwort) | Pool |
Logdatei | log (Fremdwort) | Datei |
Konfix
Die Bezeichnung Konfix bezieht sich auf ein Wort, das aus einer Fremdsprache, in vielen Fällen aus dem Lateinischen oder Griechischen, entlehnt ist und dessen Bedeutung aus der jeweiligen Sprache stammt. Konfixe sind gebundene Morpheme, aber im Gegensatz zu allen anderen Affixen können zwei Konfixe zu einem so genannten Konfixkompositum kombiniert werden. Diese Konfixkomposita werden in GermaNet nicht zerlegt, nur Komposita, die aus einem Konfix und einem nativen, nicht gebundenden Kopf bestehen, werden segmentiert.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Milligramm | milli (Konfix) | Gramm |
Zentimeter | zenti (Konfix) | Meter |
Monokultur | mono (Konfix) | Kultur |
Opaques Morphem
Modifikatoren, deren Bedeutung nicht mehr transparent ist, also ohne Berücksichtigung der Etymologie des Wortes nicht mehr erschlossen werden kann, werden mit der Eigenschaft opaques Morphem gekennzeichnet.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Himbeere | Him (opaques Morphem) | Beere |
Karfreitag | Kar (opaques Morphem) | Freitag |
Sintflut | Sint (opaques Morphem) | Flut |
Lebkuchen | Leb (opaques Morphem) | Kuchen |
Elfenbein | Elfen (opaques Morphem) | Bein |
Eigenname
Wenn das ganze Kompositum ein Eigenname ist, wird es in GermaNet nicht segmentiert (z.B. Deutschland, Frankreich). Wenn nur der Modifikator ein Eigenname ist, wird das Kompositum segmentiert und der Modifikator wird als Eigenname gekennzeichnet.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Hubbleteleskop | Hubble (Eigenname) | Teleskop |
Wertherstimmung | Werther (Eigenname) | Stimmung |
Hiobsbotschaft | Hiob (Eigenname) | Botschaft |
Virtuelle Bildung
Virtuelle Bestandteile, die als virtuelle Bildung bezeichnet werden, sind entsprechend der bestehenden Wortbildungsregeln aufgebaut. Sie existieren jedoch nicht isoliert, sondern nur als Teil eines Kompositums.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Einflussnahme | Einfluss | Nahme (virtuelle Bildung) |
Fragesteller | Frage | Steller (virtuelle Bildung) |
Farbgebung | Farbe | Gebung (virtuelle Bildung) |
Wortgruppe
Modifikatoren, die aus mehreren Wörtern bestehen, werden als Wortgruppe markiert und die Wörter werden in ihrer Lemmaform aufgelistet.
Beispiele:
Kompositum | Modifikator | Kopf |
---|---|---|
Dreiwegekatalysator | drei Weg (Wortgruppe) | Katalysator |
Nacht-und-Nebel-Aktion | Nacht und Nebel (Wortgruppe) | Aktion |
Pro-Kopf-Einkommen | pro Kopf (Wortgruppe) | Einkommen |
Die folgende Tabelle gibt einen Überblick über die Bestandteile eines Kompositums (d.h. Modifikator und Kopf) und die entsprechenden Eigenschaften, die für jeden Bestandteil in GermaNet annotiert sind:
Eigenschaft | Modifikator | Kopf |
---|---|---|
Abkürzung | x | x |
Affixoid | x | x |
Fremdwort | x | x |
Konfix | x | |
Opaques Morphem | x | x |
Eigenname | x | |
Virtuelle Bildung | x | |
Wortgruppe | x |
Download
Zusätzlich zu den oben beschriebenen Informationen, die in GermaNet (seit Version 8.0) enthalten sind, steht hier eine Liste der segmentierten Komposita mit Modifikator und Kopf frei zum Download zur Verfügung:
- GermaNet v18.0 (2023): Liste von 121655 segmentierte Nominalkomposita
- GermaNet v17.0 (2022): Liste von 115366 segmentierte Nominalkomposita (Update: 28. Juni 2022, korrigiert)
- GermaNet v16.0 (2021): Liste von 106780 segmentierte Nominalkomposita
- GermaNet v15.0 (2020): Liste von 98905 segmentierte Nominalkomposita (Update: 15. Juni 2020, korrigiert)
- GermaNet v14.0 (2019): Liste von 91106 segmentierte Nominalkomposita
- GermaNet v13.0 (2018): Liste von 82309 segmentierte Nominalkomposita
- GermaNet v12.0 (2017): Liste von 74990 segmentierte Nominalkomposita
- GermaNet v11.0 (2016): Liste von 66059 segmentierte Nominalkomposita (v11.0: Update: 16. Feb. 2017)
- GermaNet v10.0 (2015): Liste von 54569 segmentierte Nominalkomposita
- GermaNet v9.0 (2014): Liste von 54759 segmentierte Nominalkomposita
- GermaNet v8.0 (2013): Liste von 40437 segmentierte Nominalkomposita (v8.0: Release der Originalliste am 31. Mai 2013, Update: 12. Juni 2013.)
Die Liste der Kompositadaten ist für die akademische Forschung im Sinne des Lizenzvertrags für akademische Forschung von GermaNet kostenlos. Für andere Verwendungszwecke nehmen Sie bitte Kontakt mit uns auf.
In der Liste sind die Komposita folgendermaßen formatiert: zuerst das Kompositum selbst, dann ein Tab, dann der Modifikator (im Falle von zwei Modifikatoren werden diese durch das Pipe-Symbol (|) getrennt), dann wieder ein Tab und schließlich der Kopf. Zum Beispiel:
Apfelbaum Apfel Baum
Goldmünze Gold Münze
Laufband laufen|Lauf Band
Literatur:
Das folgende Papier beschreibt die automatische Kompositazerlegung, die vor der manuellen Nachkorrektur durchgeführt wird. Wenn Sie die zerlegten Komposita im Rahmen wissenschaftlicher oder forschungsbezogener Arbeiten verwenden möchten, lesen Sie bitte das Papier:
Verena Henrich and Erhard Hinrichs: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), Hissar, Bulgaria, September 2011, pp. 420-426.