Seminar für Sprachwissenschaft

Beschreibung

GermaNet ist ein lexikalisch-semantisches Wortnetz, in dem die bedeutungstragenden Kategorien Nomina, Verben und Adjektive modelliert sind. Die zentrale Repräsentationseinheit ist das Synset, in dem lexikalische Einheiten, die das gleiche Konzept ausdrücken, zusammengefasst werden. Ein Synset besteht aus einer oder mehreren lexikalischen Einheiten, von denen jede in ihrer Grundform eine bestimmte Bedeutung eines Wortes repräsentiert. Zum Beispiel hat das Wort "Blatt" mehrere Bedeutungen von denen jede zu einem anderen Synset gehört (z.B. {Pflanzenblatt}, {Kartenblatt}, {Zeitungsblatt}).

Zwischen den Synset sind semantische Relationen definiert, die auf das gesamte Konzept (konzeptuelle Relationen) oder auf einzelne lexikalische Einheiten (lexikalische Relationen) Bezug nehmen können. Die wichtigsten konzeptuellen Relationen im GermaNet sind Hyperonymie und Hyponymie, welche das gesamte Wordnetz in einer hierarchischen Struktur organisieren. Synsets werden so eingetragen, dass sie mit Hilfe der Hyponymierelation eine Kette von allgemeinen zu spezifischen Begriffen bilden (z.B. {Kunstwerk} -> {Musikstück} -> {Trio}). Die wichtigste lexikalische Relation ist die Synonymie (Stück, Musikstück und Komposition sind Synonyme).

Für jede der Wortarten (Substantiv, Verb, Adjektiv) gibt es eine Reihe von semantischen Feldern. Jedem Synset ist ein semantisches Feld und eine Wortart zugeordnet. Es können jedoch auch Wörter mit unterschiedlicher Wortart und unterschiedlichem semantischen Feld miteinander in Relation stehen. Die Relation 'Kausation' beispielsweise verknüpft Verben mit Adjektiven.

GermaNet enthält nur Grundformen von Wörtern. Substantive werden in ihrer nominativen Singularform zitiert, Verben werden in ihrer Infinitivform zitiert, und Adjektive werden ohne Geschlechtsendung eingetragen.

GermaNet orientiert sich im Wesentlichen am englischen Princeton WordNet®. Dennoch unterscheidet sich GermaNet in einigen wesentlichen Aspekten von dem für das Engliche entwickelte Wortnetz; so gelten folgende Punkte bspw. für GermaNet:

  • Adjektive sind hierarchisch strukturiert
  • GermaNet stellt einen komplett verbundenen Graphen dar
  • die Relation der Kausativierung ist wortklassenübergreifend zulässig
  • einheitliche Behandlung der Meronymie

Ausführlichere Informationen zu den semantischen Feldern, Wortklassen und Relationen des GermaNet finden Sie in den Links der "Beschreibungsnavigation". Außerdem weitere Informationen über Komposita und über die Anbindung von GermaNet an andere Datenquellen.

Richtlinien für Lexikographen

  • GermaNet listet ausschließlich Lemmata (Grundformen). Wir gehen davon aus, dass flektierte Formen durch externe morphologische Analyseprogramme lemmatisiert werden können.
    • Nomina: Nomina werden üblicherweise mit ihrer Form im Nominativ Singular aufgeführt. Pluralwörter werden mit ihrer Form im Nominativ Plural aufgeführt, z.B.: Kosten.
      Für Nomina, die von Adjektiven oder Verben abgeleitet sind, werden die indefiniten Formen im Nominativ Singular angegeben, z.B. (ein) Angestellter, (eine) Angestellte.
    • Verben werden in ihrer Infinitivform angegeben.
    • Adjektive werden ohne Flexionsendung angegeben.
  • Der Grad an Polysemie wird auf ein Minimum beschränkt, zusätzliche Lesarten werden nur eingetragen, wenn sie im Widerspruch zu den schon vorhandenen Lesarten dieses Lemmas stehen. Im Zweifelsfall orientiert sich GermaNet am Grad der Polysemie, der typischerweise in einsprachigen Wörterbüchern im Printformat zu finden ist.
  • Abkürzungen sind abgedeckt, wenn sie Teil der Alltagssprache sind und anstelle der ausführlichen Form genutzt werden (z.B.: AIDS, SPD, EDV, LSD, etc.).
  • Mehrwortlexeme sind nur in einem geringen Umfang abgedeckt und nur, wenn sie sehr geläufig sind (z.B.: Hab und Gut, Erste Hilfe, instand setzen).
  • Konzepte, die sich auf menschliche Wesen beziehen und daher ein natürliches Geschlecht implizieren, werden wie folgt behandelt:
    Als zwei unterschiedliche Entitäten (synsets) wenn der Unterschied im Geschlecht lexikalisiert ist (Mann/Frau)
    In allen anderen Fällen als ein Synset mit zwei Einträgen, das die männliche und die weibliche Form auflistet (Lehrer, Lehrerin).
  • Als Standardform wird die neue deutsche Rechtschreibung angegeben.
    Alternative Schreibweisen werden als Varianten aufgeführt:
              Orth Form: Fantasie, Orth Var: Phantasie
              Orth Form: Selbstständigkeit, Orth Var: Selbständigkeit
              Orth Form: Cousine, Orth Var: Kusine
    Zusätzlich werden die alten, heute nicht mehr gültigen Schreibweisen und Varianten angegeben:
              Old Orth Form: Schiffahrt
              Old Orth Form: Fluß
              Old Orth Form: Schwarz-Weiß-Photo, Old Orth Var: Schwarzweißphoto
  • Lexikalische Lücken/Künstliche Konzepte: Konzepte, die im Deutschen nicht existieren, aber benötigt werden, um eine angemessene Hierarchie zu bilden, sind als künstliche Konzepte markiert. Es handelt sich dabei um lexikalische Lücken, zum Beispiel: natürliches Phänomen. Beachten Sie, dass attributive Adjektive klein geschrieben werden, außer wenn sie lexikalisiert sind wie in Erste Hilfe.
  • Eigennamen: Eigennamen sind nur als solche gekennzeichnet, wenn sie sich auf einzelne, nicht-linguistische Gegenstände in der realen Welt beziehen. Folglich sind Ortsbezeichnungen, Organisationen, etc. (z.B. Deutschland, Bündnis für Arbeit) als Eigenname markiert, während Nationalitäten dies nicht sind. Eigennamen, die sich auf Personen beziehen, werden grundsätzlich nicht aufgenommen.
  • Stilkennzeichnung: Stilistische Varianten sind mit einem speziellen Merkmal gekennzeichnet:
              schnipsen,stilistische Variante: schnippen
              Po, stilistische Variante: Arsch
              arbeiten,stilistische Variante: schaffen
  • Definitionen (Paraphrasen): Aufgrund von limitierten Ressourcen stellen wir nur eine relativ kleine Anzahl von eigenen textbasierten Definitionen für Lesarten in GermaNet bereit (aber s. Wiktionary-Paraphrasen für die Zuordnung von Paraphrasen aus Wiktionary). Lexikografen fügen Definitionen hinzu, wenn sie den Eindruck haben, dass eine bestimmte Lesart nicht hinreichend durch ihre Synonyme und/oder ihre unmittelbaren Nachbarknotenpunkte im Netzwerk definiert ist.
    Die Definitionen sind nicht-formalisierte Beschreibungen der Konzepte.
              Horizont: Linie, an der sich Himmel und Erde bzw. Meer scheinbar berühren
    Für alle Verben wird mindestens ein Beispielsatz angegeben (s. auch Verbrahmen):
              abbauen(1): Sie haben das Gerüst schon wieder abgebaut.
              abbauen(2): Hier wird Kohle abgebaut.