Seminar für Sprachwissenschaft

Komposita in GermaNet

Überblick

Komposition ist ein sehr produktiver Wortbildungsprozess im Deutschen. Für viele Anwendungen ist es hilfreich, Informationen über die Bestandteile der Komposita zu haben, da die semantische Interpretation in der Regel auf der Bedeutung dieser Bestandteile beruht. In GermaNet werden daher Nominalkomposita in ihre Bestandteile, d.h. Modifikator und Kopf, zerlegt. Die Aufteilung identifiziert die unmittelbaren Bestandteile auf jeder Analyseebene und spiegelt somit den rekursiven Charakter von Komposita wider, die mehr als zwei Bestandteile haben, wie z.B. Autobahnanschlussstelle. Die unmittelbaren Bestandteile dieses Kompositums sind Autobahn und Anschlussstelle, wobei sich der erste Bestandteil dann weiter in Auto und Bahn und der zweite weiter in Anschluss und Stelle aufspaltet (siehe Abbildung 1).

Was das Zerlegen von deutschen Komposita zu einer herausfordernden Aufgabe macht, ist die Tatsache, dass es sich bei Komposita nicht immer um eine einfache Verkettung von Wörtern handelt, sondern Fugenelemente eingefügt werden oder Buchstaben am Wortende des Modifikators wegfallen können (Henrich & Hinrichs, 2011). In GermaNet werden alle Modifikatoren lemmatisiert, und wenn ein Modifikator in Bezug auf seine Wortklasse mehrdeutig ist (aufgrund einer Konversion), werden beide Möglichkeiten angegeben: 

  • Laufschuhe: lauf- (en) [Verb] und (der) Lauf [Nomen]
  • Baustelle: bau- (en) [Verb] und (der) Bau [Nomen]

Das Zerlegen der Komposita wird in GermaNet durch einen automatischen Algorithmus unterstützt, der mehrere einzelne Tools zur Segmentierung von Komposita kombiniert. Weitere Informationen zur automatischen Zerlegung entnehmen Sie bitte dem unten genannten Papier. Alle automatisch segmentierten Komposita werden manuell nachkorrigiert und mit relevanten Eigenschaften versehen, bevor sie in GermaNet eingefügt werden.

Eigenschaften

Die folgenden Eigenschaften werden für Modifikatoren und/oder Köpfe angegeben:


Abkürzung

Wenn ein Bestandteil des Kompositums eine Abkürzung ist, wird er entsprechend gekennzeichnet.

Beispiele:

Kompositum Modifikator Kopf
SIM-Karte SIM (abbreviation) Karte
ISO-Norm ISO (abbreviation) Norm
Bonus-CD Bonus CD (abbreviation)

Affixoid

Affixoide sind Morpheme mit einem besonderen Status zwischen gebundenen und freien Morphemen. Da sie eine klar zugeordnete Bedeutung haben, ist es sinnvoll, die jeweiligen Wörter zu trennen. Das gebundene Morphem wird als Affixoid bezeichnet.

Beispiele:

Kompositum Modifikator Kopf
Grundfrage grund (affixoid) Frage
Riesenchance riesen (affixoid) Chance
Hauptsaison haupt (affixoid) Saison
Generalschlüssel general (affixoid) Schlüssel

Fremdwort

Wenn ein Bestandteil des Kompositums kein deutsches Wort ist, wird es als Fremdwort bezeichnet. Beachten Sie, dass diejenigen Bestandteile, die zwar aus einer anderen Sprache übernommen sind, aber heutzutage als Lehnwörter verwendet werden und die in einem deutschen Standardwörterbuch (wie z.B. dem Duden) definiert sind, in GermaNet nicht als Fremdwörter betrachtet werden (z.B. Drink und Pool in den Beispielen unten).

Beispiele:

Kompositum Modifikator Kopf
Longdrink long (Fremdwort) Drink
Swimmingpool swimming (Fremdwort) Pool
Logdatei log (Fremdwort) Datei

Konfix

Die Bezeichnung Konfix bezieht sich auf ein Wort, das aus einer Fremdsprache, in vielen Fällen aus dem Lateinischen oder Griechischen, entlehnt ist und dessen Bedeutung aus der jeweiligen Sprache stammt. Konfixe sind gebundene Morpheme, aber im Gegensatz zu allen anderen Affixen können zwei Konfixe zu einem so genannten Konfixkompositum kombiniert werden. Diese Konfixkomposita werden in GermaNet nicht zerlegt, nur Komposita, die aus einem Konfix und einem nativen, nicht gebundenden Kopf bestehen, werden segmentiert.

Beispiele:

Kompositum Modifikator Kopf
Milligramm milli (Konfix) Gramm
Zentimeter zenti (Konfix) Meter
Monokultur mono (Konfix) Kultur

Opaques Morphem

Modifikatoren, deren Bedeutung nicht mehr transparent ist, also ohne Berücksichtigung der Etymologie des Wortes nicht mehr erschlossen werden kann, werden mit der Eigenschaft opaques Morphem gekennzeichnet.

Beispiele:

Kompositum Modifikator Kopf
Himbeere Him (opaques Morphem) Beere
Karfreitag Kar (opaques Morphem) Freitag
Sintflut Sint (opaques Morphem) Flut
Lebkuchen Leb (opaques Morphem) Kuchen
Elfenbein Elfen (opaques Morphem) Bein

Eigenname

Wenn das ganze Kompositum ein Eigenname ist, wird es in GermaNet nicht segmentiert (z.B. Deutschland, Frankreich). Wenn nur der Modifikator ein Eigenname ist, wird das Kompositum segmentiert und der Modifikator wird als Eigenname gekennzeichnet.

Beispiele:

Kompositum Modifikator Kopf
Hubbleteleskop Hubble (Eigenname) Teleskop
Wertherstimmung Werther (Eigenname) Stimmung
Hiobsbotschaft Hiob (Eigenname) Botschaft

Virtuelle Bildung

Virtuelle Bestandteile, die als virtuelle Bildung bezeichnet werden, sind entsprechend der bestehenden Wortbildungsregeln aufgebaut. Sie existieren jedoch nicht isoliert, sondern nur als Teil eines Kompositums.

Beispiele:

Kompositum Modifikator Kopf
Einflussnahme Einfluss Nahme (virtuelle Bildung)
Fragesteller Frage Steller (virtuelle Bildung)
Farbgebung Farbe Gebung (virtuelle Bildung)

Wortgruppe

Modifikatoren, die aus mehreren Wörtern bestehen, werden als Wortgruppe markiert und die Wörter werden in ihrer Lemmaform aufgelistet.

Beispiele:

Kompositum Modifikator Kopf
Dreiwegekatalysator drei Weg (Wortgruppe) Katalysator
Nacht-und-Nebel-Aktion Nacht und Nebel (Wortgruppe) Aktion
Pro-Kopf-Einkommen pro Kopf (Wortgruppe) Einkommen

Die folgende Tabelle gibt einen Überblick über die Bestandteile eines Kompositums (d.h. Modifikator und Kopf) und die entsprechenden Eigenschaften, die für jeden Bestandteil in GermaNet annotiert sind:

Eigenschaft Modifikator Kopf
Abkürzung x x
Affixoid x x
Fremdwort x x
Konfix x  
Opaques Morphem x x
Eigenname x  
Virtuelle Bildung   x
Wortgruppe x  

Download

Zusätzlich zu den oben beschriebenen Informationen, die in GermaNet (seit Version 8.0) enthalten sind, steht hier eine Liste der segmentierten Komposita mit Modifikator und Kopf frei zum Download zur Verfügung:

Die Liste der Kompositadaten ist für die akademische Forschung im Sinne des Lizenzvertrags für akademische Forschung von GermaNet kostenlos. Für andere Verwendungszwecke nehmen Sie bitte Kontakt mit uns auf.

In der Liste sind die Komposita folgendermaßen formatiert: zuerst das Kompositum selbst, dann ein Tab, dann der Modifikator (im Falle von zwei Modifikatoren werden diese durch das Pipe-Symbol (|) getrennt), dann wieder ein Tab und schließlich der Kopf. Zum Beispiel:

Apfelbaum      Apfel   Baum
Goldmünze     Gold   Münze
Laufband       laufen|Lauf     Band

Literatur:

Das folgende Papier beschreibt die automatische Kompositazerlegung, die vor der manuellen Nachkorrektur durchgeführt wird. Wenn Sie die zerlegten Komposita im Rahmen wissenschaftlicher oder forschungsbezogener Arbeiten verwenden möchten, lesen Sie bitte das Papier:

Verena Henrich and Erhard Hinrichs: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), Hissar, Bulgaria, September 2011, pp. 420-426.