Seminar für Sprachwissenschaft

Datenbank


Die Arbeitskopie von GermaNet ist in einer Datenbank gespeichert. Sie enthält alle Daten von GermaNet. Das GermaNet Editing Tool (GernEdiT) wird von den Lexikografen verwendet, um lexikografische Daten in die GermaNet-Datenbank einzugeben. Weitere Informationen zu GernEdiT finden Sie im folgenden Papier: 

Verena Henrich und Erhard HinrichsThe GermaNet Editing Tool. In Proceedings of the Seventh Conference on International Language Resources and Evaluation (LREC 2010), Valletta, Malta, pp. 2228-2235.

Datenbankstruktur

Die Datenbank ist entsprechend der GermaNet-Daten strukturiert, was bedeutet, dass es Tabellen zur Speicherung von Synsets, lexikalischen Einheiten, Relationen usw. gibt. Abbildung 2 gibt einen Überblick über die gesamte Datenbankstruktur. Jede Tabelle wird im Folgenden im Detail erläutert.

Abbildung 2Überblick über die Datenbankstruktur.

lex_unit_table

Jeder Eintrag in dieser Tabelle stellt eine lexikalische Einheit mit all ihren Informationen dar.

  • id: eindeutige ID
  • synset_id: gibt das Synset an, zu dem die lexikalische Einheit gehört
  • orth_form: die orthografische Form der lexikalischen Einheit
  • orth_var: eine orthografische Variante
  • old_orth_form: die orthografische Form in der alten, nicht mehr gültigen Rechtschreibung
  • old_orth_var: eine orthografische Variante in der alten, nicht mehr gültigen Rechtschreibung
  • named_entity: gibt an, ob die lexikalische Einheit ein Eigenname ist oder nicht
  • artificial: gibt an, ob die lexikalische Einheit verwendet wird, um ein künstliches Konzept im Graphen darzustellen
  • style_marking: gibt an, ob die lexikalische Einheit stilistisch markiert ist
  • comment: ein Kommentar zu dieser lexikalischen Einheit

example_table

Jeder Eintrag in dieser Tabelle besteht aus einem Beispielsatz, der zu einer lexikalischen Einheit gehört.

  • id: eindeutige ID
  • lex_unit_id: bezieht sich auf die lexikalische Einheit, zu der dieser Beispielsatz gehört
  • text: der Beispielsatz selbst
  • frame_type_id: gibt den syntaktischen Rahmen dieses Beispielsatzes an

frame_table

Jeder Eintrag in dieser Tabelle gibt den syntaktischen Rahmen an, der zu einer lexikalischen Einheit gehört.

  • id: eindeutige ID
  • lex_unit_id: gibt die lexikalische Einheit an, zu der dieses Beispiel gehört
  • frame_type_id: spezifiert den Typ des syntaktischen Rahmens

frame_type_table

Diese Tabelle enthält alle möglichen Typen für die syntaktischen Rahmen.

  • id: eindeutige ID
  • frame: der Typ des syntaktischen Rahmens, e.g. NN, NE, or NN.AN.Az

lex_rel_table

Alle lexikalischen Relationen sind in dieser Tabelle enthalten.

  • id: eindeutige ID
  • rel_type_id: gibt die Art der lexikalischen Relation an, siehe die Beschreibung bei lex_rel_type_table
  • from_lex_unit_id: gibt die lexikalische Einheit an, von der diese lexikalische Relation ausgeht
  • to_lex_unit_id: gibt die lexikalische Einheit an, auf die diese lexikalische Relation verweist

lex_rel_type_table

Hier sind alle Typen von lexikalischen Relationen enthalten.

  • id: eindeutige ID
  • name: die Bezeichnung der lexikalischen Relation, z.B. Antonymie oder Pertonymie; beachten Sie, dass die Synonymie in dieser Tabelle nicht erscheint, da die Synonymie-Relation durch die Suche nach allen lexikalischen Einheiten mit der gleichen synset_id bestimmt werden kann
  • direction: gibt an, ob diese lexikalische Relation in einer oder in beide Richtungen gültig ist (d.h. one or both); revert bedeutet, dass die Relation in beide Richtungen, aber auf unterschiedliche Weise gültig ist
  • inverse: die Bezeichnung für die lexikalische Relation in der umgekehrten Richtung; insbesondere interessant, wenn die Richtung (dir) als revert angegeben ist

synset_table

Jeder Eintrag in dieser Tabelle stellt ein Synset mit all seinen Informationen dar.

  • id: eindeutige ID
  • word_class_id: spezifiziert die semantische Klasse dieses Synsets, z.B. Bewegung, Geist, etc.
  • word_category_id: spezifiziert die Wortart dieses Synsets, z.B. adj, nomen oder verben
  • paraphrase: eine Beschreibung dieses Synsets
  • comment: ein Kommentar zu diesem Synset

word_class_table

Diese Tabelle enthält alle semantischen Klassen.

  • id: eindeutige ID
  • word_class: die semantische Klasse, z.B. Allgemein, Bewegung, Geist, etc.

word_category_table

This table stores all possible word categories.

  • id: eindeutige ID
  • word_category: die Wortart, z.B. adj, nomen oder verben

con_rel_table

Diese Tabelle enthält alle konzeptuellen Relationen.

  • id: eindeutige ID
  • rel_type_id: gibt den Typ der konzeptuellen Relation an, siehe die Beschreibung von con_rel_type_table
  • from_synset_id: gibt das Synset an, von dem diese konzeptuelle Relation ausgeht
  • to_synset_id: gibt das Synset an, auf das diese konzeptuelle Relation verweist

con_rel_type_table

Jeder Eintrag in dieser Tabelle gibt den Typ der konzeptuellen Relation an.

  • id: eindeutige ID
  • name: die Bezeichnung der konzeptuellen Relation, z.B. Hyperonymie oder Meronymie
  • direction: gibt an, ob diese konzeptuelle Relation in einer oder in beide Richtungen gültig ist (d.h. one oder both); revert bedeutet, dass die Relation in beide Richtungen, aber auf unterschiedliche Weise gültig ist
  • inverse: die Bezeichnung für die konzeptuelle Relation in der umgekehrten Richtung, z.B. Hyponymie; insbesondere interessant, wenn die Richtung (dir) als revert angegeben ist
  • transitive: gibt an, ob diese konzeptuelle Relation transitiv ist

ili_table

Diese Tabelle enthält die ILI-Datensätze, die GermaNet auf WordNet abbilden

  • id: eindeutige ID
  • gn_lex_unit_id: die ID der lexikalischen Einheit in der GermaNet-Datenbank
  • gn_old_sense: veraltet
  • ewn_relation: gibt den Typ der Relation an, siehe die Beschreibung von ewn_rel_table
  • pwn_word: eine englische Übersetzung der lexikalischen Einheit in GermaNet
  • pwn_word20_sense: eine einstellige hexadezimale ganze Zahl, die eindeutig eine Lesart identifiziert
  • pwn_word20_id: die ID des Synsets in WordNet 2.0, das der lexikalischen Einheit in GermaNet entspricht
  • pwn_word30_id: die ID des Synsets in WordNet 3.0, das der lexikalischen Einheit in GermaNet entspricht
  • source: gibt an, ob die Daten aus dem EuroWordNet-Projekt oder von der Universität Tübingen stammen
  • pwn_word20_paraphrase: Definition aus WordNet

ewn_rel_table

Diese Tabelle enthält alle verfügbaren sprachübergreifenden Relationstypen aus EuroWordNet.

  • id: eindeutige ID
  • name: die Bezeichnung der konzeptuellen Relation zwischen lexikalischen Einheiten aus GermaNet und Synsets aus WordNet

ili_pwn20_synonym_table

Diese Tabelle enthält alternative Übersetzungen einer lexikalischen Einheit in GermaNet.

  • id: eindeutige ID
  • ili_id: ID des ILI-Datensatzes
  • pwn20_synonym: alternative Übersetzung einer lexikalischen Einheit in GermaNet, die aus dem WordNet-Synset übernommen wurde 

wkn_sense_table

Diese Tabelle enthält Links von lexikalischen Einheiten aus GermaNet zu den Paraphrasen aus Wiktionary.

  • id: eindeutige ID
  • gn_lex_unit_id: ID einer lexikalischen Einheit aus der GermaNet-Datenbank
  • wkn_word_entry_id: ID des Wiktionary-Eintrags
  • wkn_sense_id: ID der Lesart in Wiktionary, innerhalb eines Eintrags
  • wkn_gloss: die Paraphrase der lexikalischen Einheit in GermaNet, wie sie aus Wiktionary übernommen wurde
  • wkn_gloss_edited: zeigt an, ob die vorherige Spalte für GermaNet geändert wurde

compound_table

Diese Tabelle enthält Informationen über die Bestandteile von Nominalkomposita.

  • id: eindeutige ID
  • comp_property: spezifiziert eine Eigenschaft des Kompositums, siehe compound_property_table
  • compound: die orthografische Form des Kompositums
  • comp_lex_unit_id: ID der entsprechenden lexikalischen Einheit in lex_unit_table
  • mod_property: spezifiziert eine Eigenschaft des Modifikators, siehe compound_property_table
  • mod1_category: gibt die Wortart des ersten Modifikators an, siehe compound_category_table
  • modifier1: die orthografische Form des ersten Modifikators
  • mod1_lex_unit_id: ID der entsprechenden lexikalischen Einheit in lex_unit_table
  • mod2_category: gibt die Wortart des zweiten Modifikators an, siehe compound_category_table
  • modifier2: die orthografische Form des zweiten Modifikators
  • mod2_lex_unit_id: ID der entsprechenden lexikalischen Einheit in lex_unit_table
  • head_property: spezifiziert eine Eigenschaft des Heads, siehe compound_property_table
  • head: die orthografische Form des Heads
  • head_lex_unit_id: ID der entsprechenden lexikalischen Einheit in lex_unit_table

compound_property_table

Diese Tabelle enthält Eigenschaften der Komposita, z.B. Abkürzung, Wortgruppe, Eigenname

  • id: eindeutige ID
  • name: spezifiziert eine Eigenschaft des Kompositums oder seiner Bestandteile, z.B. Abkürzung, Wortgruppe, Eigenname

compound_category_table

Diese Tabelle enthält die Wortarten des Modifikators, z.B. Nomen, Präposition, Pronomen.

  • id: eindeutige ID
  • name: spezifiziert die Wortart des Modifikators, z.B. Nomen, Präposition, Pronomen