Seminar für Sprachwissenschaft

Komposita in GermaNet

Zerlegung

Komposition ist ein sehr produktiver Wortbildungsprozess im Deutschen. Für viele Anwendungen ist es hilfreich, Informationen über die Bestandteile der Komposita zu haben, da die semantische Interpretation in der Regel auf der Bedeutung dieser Bestandteile beruht. In GermaNet werden daher Nominalkomposita in ihre Bestandteile, d.h. Modifikator und Kopf, zerlegt. Die Aufteilung identifiziert die unmittelbaren Bestandteile auf jeder Analyseebene und spiegelt somit den rekursiven Charakter von Komposita wider, die mehr als zwei Bestandteile haben, wie z.B. Autobahnanschlussstelle. Die unmittelbaren Bestandteile dieses Kompositums sind Autobahn und Anschlussstelle, wobei sich der erste Bestandteil dann weiter in Auto und Bahn und der zweite weiter in Anschluss und Stelle aufspaltet (siehe Abbildung 1).

Was das Zerlegen von deutschen Komposita zu einer herausfordernden Aufgabe macht, ist die Tatsache, dass es sich bei Komposita nicht immer um eine einfache Verkettung von Wörtern handelt, sondern Fugenelemente eingefügt werden oder Buchstaben am Wortende des Modifikators wegfallen können (Henrich & Hinrichs, 2011). In GermaNet werden alle Modifikatoren lemmatisiert, und wenn ein Modifikator in Bezug auf seine Wortklasse mehrdeutig ist (aufgrund einer Konversion), werden beide Möglichkeiten angegeben: 

  • Laufschuhe: lauf- (en) [Verb] und (der) Lauf [Nomen]
  • Baustelle: bau- (en) [Verb] und (der) Bau [Nomen]

Das Zerlegen der Komposita wird in GermaNet durch einen automatischen Algorithmus unterstützt, der mehrere einzelne Tools zur Segmentierung von Komposita kombiniert. Weitere Informationen zur automatischen Zerlegung entnehmen Sie bitte dem unten genannten Papier. Alle automatisch segmentierten Komposita werden manuell nachkorrigiert und mit relevanten Eigenschaften versehen, bevor sie in GermaNet eingefügt werden.

Eigenschaften

Die folgenden Eigenschaften werden für Modifikatoren und/oder Köpfe angegeben:

Abkürzung

Wenn ein Bestandteil des Kompositums eine Abkürzung ist, wird er entsprechend gekennzeichnet.

Beispiele:

KompositumModifikatorKopf
SIM-KarteSIM (abbreviation)Karte
ISO-NormISO (abbreviation)Norm
Bonus-CDBonusCD (abbreviation)

Affixoid

Affixoide sind Morpheme mit einem besonderen Status zwischen gebundenen und freien Morphemen. Da sie eine klar zugeordnete Bedeutung haben, ist es sinnvoll, die jeweiligen Wörter zu trennen. Das gebundene Morphem wird als Affixoid bezeichnet.

Beispiele:

KompositumModifikatorKopf
Grundfragegrund (affixoid)Frage
Riesenchanceriesen (affixoid)Chance
Hauptsaisonhaupt (affixoid)Saison
Generalschlüsselgeneral (affixoid)Schlüssel

Fremdwort

Wenn ein Bestandteil des Kompositums kein deutsches Wort ist, wird es als Fremdwort bezeichnet. Beachten Sie, dass diejenigen Bestandteile, die zwar aus einer anderen Sprache übernommen sind, aber heutzutage als Lehnwörter verwendet werden und die in einem deutschen Standardwörterbuch (wie z.B. dem Duden) definiert sind, in GermaNet nicht als Fremdwörter betrachtet werden (z.B. Drink und Pool in den Beispielen unten).

Beispiele:

KompositumModifikatorKopf
Longdrinklong (Fremdwort)Drink
Swimmingpoolswimming (Fremdwort)Pool
Logdateilog (Fremdwort)Datei

Konfix

Die Bezeichnung Konfix bezieht sich auf ein Wort, das aus einer Fremdsprache, in vielen Fällen aus dem Lateinischen oder Griechischen, entlehnt ist und dessen Bedeutung aus der jeweiligen Sprache stammt. Konfixe sind gebundene Morpheme, aber im Gegensatz zu allen anderen Affixen können zwei Konfixe zu einem so genannten Konfixkompositum kombiniert werden. Diese Konfixkomposita werden in GermaNet nicht zerlegt, nur Komposita, die aus einem Konfix und einem nativen, nicht gebundenden Kopf bestehen, werden segmentiert.

Beispiele:

KompositumModifikatorKopf
Milligrammmilli (Konfix)Gramm
Zentimeterzenti (Konfix)Meter
Monokulturmono (Konfix)Kultur

Opaques Morphem

Modifikatoren, deren Bedeutung nicht mehr transparent ist, also ohne Berücksichtigung der Etymologie des Wortes nicht mehr erschlossen werden kann, werden mit der Eigenschaft opaques Morphem gekennzeichnet.

Beispiele:

KompositumModifikatorKopf
HimbeereHim (opaques Morphem)Beere
KarfreitagKar (opaques Morphem)Freitag
SintflutSint (opaques Morphem)Flut
LebkuchenLeb (opaques Morphem)Kuchen
ElfenbeinElfen (opaques Morphem)Bein

Eigenname

Wenn das ganze Kompositum ein Eigenname ist, wird es in GermaNet nicht segmentiert (z.B. Deutschland, Frankreich). Wenn nur der Modifikator ein Eigenname ist, wird das Kompositum segmentiert und der Modifikator wird als Eigenname gekennzeichnet.

Beispiele:

KompositumModifikatorKopf
HubbleteleskopHubble (Eigenname)Teleskop
WertherstimmungWerther (Eigenname)Stimmung
HiobsbotschaftHiob (Eigenname)Botschaft

Virtuelle Bildung

Virtuelle Bestandteile, die als virtuelle Bildung bezeichnet werden, sind entsprechend der bestehenden Wortbildungsregeln aufgebaut. Sie existieren jedoch nicht isoliert, sondern nur als Teil eines Kompositums.

Beispiele:

KompositumModifikatorKopf
EinflussnahmeEinflussNahme (virtuelle Bildung)
FragestellerFrageSteller (virtuelle Bildung)
FarbgebungFarbeGebung (virtuelle Bildung)

Wortgruppe

Modifikatoren, die aus mehreren Wörtern bestehen, werden als Wortgruppe markiert und die Wörter werden in ihrer Lemmaform aufgelistet.

Beispiele:

KompositumModifikatorKopf
Dreiwegekatalysatordrei Weg (Wortgruppe)Katalysator
Nacht-und-Nebel-AktionNacht und Nebel (Wortgruppe)Aktion
Pro-Kopf-Einkommenpro Kopf (Wortgruppe)Einkommen

Die folgende Tabelle gibt einen Überblick über die Bestandteile eines Kompositums (d.h. Modifikator und Kopf) und die entsprechenden Eigenschaften, die für jeden Bestandteil in GermaNet annotiert sind:

EigenschaftModifikatorKopf
Abkürzungxx
Affixoidxx
Fremdwortxx
Konfixx 
Opaques Morphemxx
Eigennamex 
Virtuelle Bildung x
Wortgruppex 

Disambiguierung der Kompositumsbestandteile

Da die semantische Interpretation von Komposita typischerweise auf den Bedeutungen ihrer konstituierenden Elemente basiert, ist die Verfügbarkeit detaillierter Informationen über diese Bestandteile für viele Anwendungen von erheblichem analytischem Wert.  Die Bestandteile von Komposita sind jedoch häufig polysem, wodurch eine adäquate maschinelle Analyse ohne Berücksichtigung der jeweils relevanten Bedeutungsvariante eines Bestandteils erschwert wird. Infolgedessen wurden die polysemen Konstituenten der in GermaNet enthaltenen Komposita systematisch disambiguiert und alle Kompositumsbestandteile mit den IDs der entsprechenden lexikalischen Einheiten versehen.

Modifikatordisambiguierung

Die Verknüpfung zwischen einem Modifikator und seiner jeweiligen Lesart wird über die Angabe der zugehörigen ID realisiert. Die semantische Relation zwischen Kompositum und Modifikator weist dabei ein breites Spektrum möglicher Interpretationen auf.

Beispiele:

KompositumModifikatorKopf
EiswürfelEis ID_01 (gefrorenes Wasser)Würfel
EisbecherEis ID_02 (Speiseeis)Becher
Süßwassersüß ID_03 (geschmacksspezifisch)Wasser

Enthält ein Kompositum zwei verschiedene Modifikatoren, erfolgt die Disambiguierung für beide Komponenten.

Beispiel:

KompositumModifikatorKopf
LaufschuhLauf  ID_04 (Laufbewegung)Schuh
 lauf- (en) ID_05 (schnelles Fortbewegen zu Fuß)Schuh

Es ist möglich, dass ein Modifikator unterschiedlich interpretiert werden kann, in diesem Fall werden alle potenziellen Bedeutungsvarianten über die Angabe der relevanten IDs erfasst.

Beispiele:

KompositumModifikatorKopf
Glaubensfrage

Glaube ID_06 (eine unbewiesene Überzeugung)

Glaube ID_07 (religiöses Bekenntnis)

Frage
Spielvariante

Spiel ID_08 (Sportwettkampf)

Spiel ID_09 (zweckfreie Tätigkeit aus Freude)

Spiel ID_10 (künstlerische Handlung)

Variante

Handelt es sich beim Modifikator um ein Affixoid, ein Konfix, ein Fremdwort, ein semantisch opaques Morphem, eine nicht in GermaNet vorhandene Wortart oder um eine komplexe Wortgruppe, ist eine semantische Zuordnung nicht möglich.

Kopfdisambiguierung

In der Mehrzahl der Fälle erscheint ein Kompositum innerhalb der konzeptuellen Hierarchie als direktes oder indirektes Hyponym eines übergeordneten Hyperonyms. Entsprechend wird der Kopfkonstituente die ID des Hyperonyms zugewiesen, da das Kompositum semantisch eine Subkategorie des jeweiligen Hyperonyms realisiert.

Beispiele:

KompositumModifikatorKopf
HausschuhHaus ID_11Schuh ID_12  (Fußbedeckung)
Fahrkartefahren ID_13Karte ID_14  (Ticket, Beleg)
LandkarteLand ID_15Karte ID_16 (Abbildung)
ChipkarteChip ID_17Karte ID_18  (Datenträger)

Hat das Kompositum ein anderes Hyperonym als die Kopfkonstituente wird die ID des Kopfes zugeordnet, wenn sich das Kompositum semantisch als eine Art von diesem Kopf interpretieren lässt.

Beispiele:

KompositumModifikatorKopf
Backformbacken ID_19Form ID_20 (Artefakt)
Surfbrettsurfen ID_21Brett ID_22  (Bord)

Eine Backform ist eine Art von Form (als Artefakt), ein Surfbrett ist eine Art von Brett, die jeweiligen Hyperonyme in GermaNet sind jedoch Haushaltsgeschirr für Backform, sowie Wintersportgerät für Surfbrett.

Wenn sich das Kompositum semantisch nicht als eine Art des Kopfes interpretieren lässt, wird für die Kopfkonstituente keine ID angegeben. Zum Beispiel ist ein Nichtraucher keine Art von Raucher, Acrylglas ist keine Art von Glas.

Ebenso erfolgt keine ID-Angabe, wenn eine Teil-Ganzes-Relation zwischen dem Kompositum und der Kopfkonstituente vorliegt, in diesen Fällen wird das Verhältnis zum Kopf über eine explizite Angabe dieser Teil-Ganzes-Relation erfasst. Zum Beispiel ist ein Viertelliter nicht eine Art von Liter, sondern ein Teil eines Liters, deshalb erfolgt keine Angabe einer ID beim Kopf, aber Nennung der Teil-Ganzes-Relation:  
Viertelliter - has_ portion _holonym Liter

Übertragene Bedeutungen

Wird das Kompositum in seiner Gesamtbedeutung idiomatisch oder metaphorisch verwendet, erfolgt für beide Konstituenten keine Zuordnung einer semantischen Lesart.

Beispiele:
Frauenschuh (als Orchideenart),  Eselsbrücke, Fettnäpfchen

Wenn nur die Kopfkonstituente metaphorisch verwendet wird, erfolgt dort keine ID-Zuordnung, der Modifikator wird jedoch disambiguiert.

Beispiele:

KompositumModifikatorKopf
Baulöwe

Bau ID_23

bauen ID_24

Löwe
GlückspilzGlück ID_25Pilz
ZaunkönigZaun ID_26König

Download

Zusätzlich zu den oben beschriebenen Informationen, die in GermaNet (seit Version 8.0) enthalten sind, steht hier eine Liste der segmentierten Komposita mit Modifikator und Kopf frei zum Download zur Verfügung:

Die Liste der Kompositadaten ist für die akademische Forschung im Sinne des Lizenzvertrags für akademische Forschung von GermaNet kostenlos. Für andere Verwendungszwecke nehmen Sie bitte Kontakt mit uns auf.

In der Liste sind die Komposita folgendermaßen formatiert: zuerst das Kompositum selbst, dann ein Tab, dann der Modifikator (im Falle von zwei Modifikatoren werden diese durch das Pipe-Symbol (|) getrennt), dann wieder ein Tab und schließlich der Kopf. Zum Beispiel:

Apfelbaum      Apfel   Baum
Goldmünze     Gold   Münze
Laufband       laufen|Lauf     Band

Literatur:

Das folgende Papier beschreibt die automatische Kompositazerlegung, die vor der manuellen Nachkorrektur durchgeführt wird. Wenn Sie die zerlegten Komposita im Rahmen wissenschaftlicher oder forschungsbezogener Arbeiten verwenden möchten, lesen Sie bitte das Papier:

Verena Henrich and Erhard Hinrichs: Determining Immediate Constituents of Compounds in GermaNet. In Proceedings of Recent Advances in Natural Language Processing (RANLP 2011), Hissar, Bulgaria, September 2011, pp. 420-426.