Komposita in GermaNet
Beschreibungsnavigation
Zerlegung
Komposition ist ein sehr produktiver Wortbildungsprozess im Deutschen. Für viele Anwendungen ist es hilfreich, Informationen über die Bestandteile der Komposita zu haben, da die semantische Interpretation in der Regel auf der Bedeutung dieser Bestandteile beruht. In GermaNet werden daher Nominalkomposita in ihre Bestandteile, d.h. Modifikator und Kopf, zerlegt. Die Aufteilung identifiziert die unmittelbaren Bestandteile auf jeder Analyseebene und spiegelt somit den rekursiven Charakter von Komposita wider, die mehr als zwei Bestandteile haben, wie z.B. Autobahnanschlussstelle. Die unmittelbaren Bestandteile dieses Kompositums sind Autobahn und Anschlussstelle, wobei sich der erste Bestandteil dann weiter in Auto und Bahn und der zweite weiter in Anschluss und Stelle aufspaltet (siehe Abbildung 1).
Was das Zerlegen von deutschen Komposita zu einer herausfordernden Aufgabe macht, ist die Tatsache, dass es sich bei Komposita nicht immer um eine einfache Verkettung von Wörtern handelt, sondern Fugenelemente eingefügt werden oder Buchstaben am Wortende des Modifikators wegfallen können (Henrich & Hinrichs, 2011). In GermaNet werden alle Modifikatoren lemmatisiert, und wenn ein Modifikator in Bezug auf seine Wortklasse mehrdeutig ist (aufgrund einer Konversion), werden beide Möglichkeiten angegeben:
- Laufschuhe: lauf- (en) [Verb] und (der) Lauf [Nomen]
- Baustelle: bau- (en) [Verb] und (der) Bau [Nomen]
Das Zerlegen der Komposita wird in GermaNet durch einen automatischen Algorithmus unterstützt, der mehrere einzelne Tools zur Segmentierung von Komposita kombiniert. Weitere Informationen zur automatischen Zerlegung entnehmen Sie bitte dem unten genannten Papier. Alle automatisch segmentierten Komposita werden manuell nachkorrigiert und mit relevanten Eigenschaften versehen, bevor sie in GermaNet eingefügt werden.
Eigenschaften
Die folgenden Eigenschaften werden für Modifikatoren und/oder Köpfe angegeben:
Abkürzung
Wenn ein Bestandteil des Kompositums eine Abkürzung ist, wird er entsprechend gekennzeichnet.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| SIM-Karte | SIM (abbreviation) | Karte |
| ISO-Norm | ISO (abbreviation) | Norm |
| Bonus-CD | Bonus | CD (abbreviation) |
Affixoid
Affixoide sind Morpheme mit einem besonderen Status zwischen gebundenen und freien Morphemen. Da sie eine klar zugeordnete Bedeutung haben, ist es sinnvoll, die jeweiligen Wörter zu trennen. Das gebundene Morphem wird als Affixoid bezeichnet.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Grundfrage | grund (affixoid) | Frage |
| Riesenchance | riesen (affixoid) | Chance |
| Hauptsaison | haupt (affixoid) | Saison |
| Generalschlüssel | general (affixoid) | Schlüssel |
Fremdwort
Wenn ein Bestandteil des Kompositums kein deutsches Wort ist, wird es als Fremdwort bezeichnet. Beachten Sie, dass diejenigen Bestandteile, die zwar aus einer anderen Sprache übernommen sind, aber heutzutage als Lehnwörter verwendet werden und die in einem deutschen Standardwörterbuch (wie z.B. dem Duden) definiert sind, in GermaNet nicht als Fremdwörter betrachtet werden (z.B. Drink und Pool in den Beispielen unten).
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Longdrink | long (Fremdwort) | Drink |
| Swimmingpool | swimming (Fremdwort) | Pool |
| Logdatei | log (Fremdwort) | Datei |
Konfix
Die Bezeichnung Konfix bezieht sich auf ein Wort, das aus einer Fremdsprache, in vielen Fällen aus dem Lateinischen oder Griechischen, entlehnt ist und dessen Bedeutung aus der jeweiligen Sprache stammt. Konfixe sind gebundene Morpheme, aber im Gegensatz zu allen anderen Affixen können zwei Konfixe zu einem so genannten Konfixkompositum kombiniert werden. Diese Konfixkomposita werden in GermaNet nicht zerlegt, nur Komposita, die aus einem Konfix und einem nativen, nicht gebundenden Kopf bestehen, werden segmentiert.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Milligramm | milli (Konfix) | Gramm |
| Zentimeter | zenti (Konfix) | Meter |
| Monokultur | mono (Konfix) | Kultur |
Opaques Morphem
Modifikatoren, deren Bedeutung nicht mehr transparent ist, also ohne Berücksichtigung der Etymologie des Wortes nicht mehr erschlossen werden kann, werden mit der Eigenschaft opaques Morphem gekennzeichnet.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Himbeere | Him (opaques Morphem) | Beere |
| Karfreitag | Kar (opaques Morphem) | Freitag |
| Sintflut | Sint (opaques Morphem) | Flut |
| Lebkuchen | Leb (opaques Morphem) | Kuchen |
| Elfenbein | Elfen (opaques Morphem) | Bein |
Eigenname
Wenn das ganze Kompositum ein Eigenname ist, wird es in GermaNet nicht segmentiert (z.B. Deutschland, Frankreich). Wenn nur der Modifikator ein Eigenname ist, wird das Kompositum segmentiert und der Modifikator wird als Eigenname gekennzeichnet.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Hubbleteleskop | Hubble (Eigenname) | Teleskop |
| Wertherstimmung | Werther (Eigenname) | Stimmung |
| Hiobsbotschaft | Hiob (Eigenname) | Botschaft |
Virtuelle Bildung
Virtuelle Bestandteile, die als virtuelle Bildung bezeichnet werden, sind entsprechend der bestehenden Wortbildungsregeln aufgebaut. Sie existieren jedoch nicht isoliert, sondern nur als Teil eines Kompositums.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Einflussnahme | Einfluss | Nahme (virtuelle Bildung) |
| Fragesteller | Frage | Steller (virtuelle Bildung) |
| Farbgebung | Farbe | Gebung (virtuelle Bildung) |
Wortgruppe
Modifikatoren, die aus mehreren Wörtern bestehen, werden als Wortgruppe markiert und die Wörter werden in ihrer Lemmaform aufgelistet.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Dreiwegekatalysator | drei Weg (Wortgruppe) | Katalysator |
| Nacht-und-Nebel-Aktion | Nacht und Nebel (Wortgruppe) | Aktion |
| Pro-Kopf-Einkommen | pro Kopf (Wortgruppe) | Einkommen |
Die folgende Tabelle gibt einen Überblick über die Bestandteile eines Kompositums (d.h. Modifikator und Kopf) und die entsprechenden Eigenschaften, die für jeden Bestandteil in GermaNet annotiert sind:
| Eigenschaft | Modifikator | Kopf |
|---|---|---|
| Abkürzung | x | x |
| Affixoid | x | x |
| Fremdwort | x | x |
| Konfix | x | |
| Opaques Morphem | x | x |
| Eigenname | x | |
| Virtuelle Bildung | x | |
| Wortgruppe | x |
Disambiguierung der Kompositumsbestandteile
Da die semantische Interpretation von Komposita typischerweise auf den Bedeutungen ihrer konstituierenden Elemente basiert, ist die Verfügbarkeit detaillierter Informationen über diese Bestandteile für viele Anwendungen von erheblichem analytischem Wert. Die Bestandteile von Komposita sind jedoch häufig polysem, wodurch eine adäquate maschinelle Analyse ohne Berücksichtigung der jeweils relevanten Bedeutungsvariante eines Bestandteils erschwert wird. Infolgedessen wurden die polysemen Konstituenten der in GermaNet enthaltenen Komposita systematisch disambiguiert und alle Kompositumsbestandteile mit den IDs der entsprechenden lexikalischen Einheiten versehen.
Modifikatordisambiguierung
Die Verknüpfung zwischen einem Modifikator und seiner jeweiligen Lesart wird über die Angabe der zugehörigen ID realisiert. Die semantische Relation zwischen Kompositum und Modifikator weist dabei ein breites Spektrum möglicher Interpretationen auf.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Eiswürfel | Eis ID_01 (gefrorenes Wasser) | Würfel |
| Eisbecher | Eis ID_02 (Speiseeis) | Becher |
| Süßwasser | süß ID_03 (geschmacksspezifisch) | Wasser |
Enthält ein Kompositum zwei verschiedene Modifikatoren, erfolgt die Disambiguierung für beide Komponenten.
Beispiel:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Laufschuh | Lauf ID_04 (Laufbewegung) | Schuh |
| lauf- (en) ID_05 (schnelles Fortbewegen zu Fuß) | Schuh |
Es ist möglich, dass ein Modifikator unterschiedlich interpretiert werden kann, in diesem Fall werden alle potenziellen Bedeutungsvarianten über die Angabe der relevanten IDs erfasst.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Glaubensfrage | Glaube ID_06 (eine unbewiesene Überzeugung) Glaube ID_07 (religiöses Bekenntnis) | Frage |
| Spielvariante | Spiel ID_08 (Sportwettkampf) Spiel ID_09 (zweckfreie Tätigkeit aus Freude) Spiel ID_10 (künstlerische Handlung) | Variante |
Handelt es sich beim Modifikator um ein Affixoid, ein Konfix, ein Fremdwort, ein semantisch opaques Morphem, eine nicht in GermaNet vorhandene Wortart oder um eine komplexe Wortgruppe, ist eine semantische Zuordnung nicht möglich.
Kopfdisambiguierung
In der Mehrzahl der Fälle erscheint ein Kompositum innerhalb der konzeptuellen Hierarchie als direktes oder indirektes Hyponym eines übergeordneten Hyperonyms. Entsprechend wird der Kopfkonstituente die ID des Hyperonyms zugewiesen, da das Kompositum semantisch eine Subkategorie des jeweiligen Hyperonyms realisiert.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Hausschuh | Haus ID_11 | Schuh ID_12 (Fußbedeckung) |
| Fahrkarte | fahren ID_13 | Karte ID_14 (Ticket, Beleg) |
| Landkarte | Land ID_15 | Karte ID_16 (Abbildung) |
| Chipkarte | Chip ID_17 | Karte ID_18 (Datenträger) |
Hat das Kompositum ein anderes Hyperonym als die Kopfkonstituente wird die ID des Kopfes zugeordnet, wenn sich das Kompositum semantisch als eine Art von diesem Kopf interpretieren lässt.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Backform | backen ID_19 | Form ID_20 (Artefakt) |
| Surfbrett | surfen ID_21 | Brett ID_22 (Bord) |
Eine Backform ist eine Art von Form (als Artefakt), ein Surfbrett ist eine Art von Brett, die jeweiligen Hyperonyme in GermaNet sind jedoch Haushaltsgeschirr für Backform, sowie Wintersportgerät für Surfbrett.
Wenn sich das Kompositum semantisch nicht als eine Art des Kopfes interpretieren lässt, wird für die Kopfkonstituente keine ID angegeben. Zum Beispiel ist ein Nichtraucher keine Art von Raucher, Acrylglas ist keine Art von Glas.
Ebenso erfolgt keine ID-Angabe, wenn eine Teil-Ganzes-Relation zwischen dem Kompositum und der Kopfkonstituente vorliegt, in diesen Fällen wird das Verhältnis zum Kopf über eine explizite Angabe dieser Teil-Ganzes-Relation erfasst. Zum Beispiel ist ein Viertelliter nicht eine Art von Liter, sondern ein Teil eines Liters, deshalb erfolgt keine Angabe einer ID beim Kopf, aber Nennung der Teil-Ganzes-Relation:
Viertelliter - has_ portion _holonym Liter
Übertragene Bedeutungen
Wird das Kompositum in seiner Gesamtbedeutung idiomatisch oder metaphorisch verwendet, erfolgt für beide Konstituenten keine Zuordnung einer semantischen Lesart.
Beispiele:
Frauenschuh (als Orchideenart), Eselsbrücke, Fettnäpfchen
Wenn nur die Kopfkonstituente metaphorisch verwendet wird, erfolgt dort keine ID-Zuordnung, der Modifikator wird jedoch disambiguiert.
Beispiele:
| Kompositum | Modifikator | Kopf |
|---|---|---|
| Baulöwe | Bau ID_23 bauen ID_24 | Löwe |
| Glückspilz | Glück ID_25 | Pilz |
| Zaunkönig | Zaun ID_26 | König |
Download
Zusätzlich zu den oben beschriebenen Informationen, die in GermaNet (seit Version 8.0) enthalten sind, steht hier eine Liste der segmentierten Komposita mit Modifikator und Kopf frei zum Download zur Verfügung:
- GermaNet v20.0 (2025): Liste von 130901 segmentierte Nominalkomposita
- GermaNet v19.0 (2024): Liste von 126733 segmentierte Nominalkomposita
- GermaNet v18.0 (2023): Liste von 121655 segmentierte Nominalkomposita
- GermaNet v17.0 (2022): Liste von 115366 segmentierte Nominalkomposita (Update: 28. Juni 2022, korrigiert)
- GermaNet v16.0 (2021): Liste von 106780 segmentierte Nominalkomposita
- GermaNet v15.0 (2020): Liste von 98905 segmentierte Nominalkomposita (Update: 15. Juni 2020, korrigiert)
- GermaNet v14.0 (2019): Liste von 91106 segmentierte Nominalkomposita
- GermaNet v13.0 (2018): Liste von 82309 segmentierte Nominalkomposita
- GermaNet v12.0 (2017): Liste von 74990 segmentierte Nominalkomposita
- GermaNet v11.0 (2016): Liste von 66059 segmentierte Nominalkomposita (v11.0: Update: 16. Feb. 2017)
- GermaNet v10.0 (2015): Liste von 54569 segmentierte Nominalkomposita
- GermaNet v9.0 (2014): Liste von 54759 segmentierte Nominalkomposita
- GermaNet v8.0 (2013): Liste von 40437 segmentierte Nominalkomposita (v8.0: Release der Originalliste am 31. Mai 2013, Update: 12. Juni 2013.)
Die Liste der Kompositadaten ist für die akademische Forschung im Sinne des Lizenzvertrags für akademische Forschung von GermaNet kostenlos. Für andere Verwendungszwecke nehmen Sie bitte Kontakt mit uns auf.
In der Liste sind die Komposita folgendermaßen formatiert: zuerst das Kompositum selbst, dann ein Tab, dann der Modifikator (im Falle von zwei Modifikatoren werden diese durch das Pipe-Symbol (|) getrennt), dann wieder ein Tab und schließlich der Kopf. Zum Beispiel:
Apfelbaum Apfel Baum
Goldmünze Gold Münze
Laufband laufen|Lauf Band
Literatur:
Das folgende Papier beschreibt die automatische Kompositazerlegung, die vor der manuellen Nachkorrektur durchgeführt wird. Wenn Sie die zerlegten Komposita im Rahmen wissenschaftlicher oder forschungsbezogener Arbeiten verwenden möchten, lesen Sie bitte das Papier:
Verena Henrich and Erhard Hinrichs: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), Hissar, Bulgaria, September 2011, pp. 420-426.