Seminar für Sprachwissenschaft

XML-Dateien


Die GermaNet-Daten werden im XML-Format ausgegeben. Die XML-Dateien repräsentieren alle Daten, die in der GermaNet-Datenbank verfügbar sind. Es gibt zwei Typen von XML-Dateien. Der eine Typ enthält alle Synsets mit ihren lexikalischen Einheiten und ihren anderen Eigenschaften. Der andere Typ enthält alle Relationen, sowohl die konzeptionellen als auch die lexikalischen Relationen.

Synset-Files

Diese Dateien sind entsprechend der drei Wortarten organisiert, die derzeit in GermaNet berücksichtigt werden: Nomina, Adjektive und Verben. Für jede Wortart existiert ein vordefinierter Satz von Dateien, deren Elemente entsprechend der Tabelle der semantischen Felder in GermaNet benannt. Diese Dateien werden also folgendermaßen bezeichnet: wordCategory.wordClass.xml, z.B. adj.Allgemein.xmlnomen.Tops.xml, etc.

Die Synset-Dateien enthalten alle Synsets mit ihren lexikalischen Einheiten und allen anderen Eigenschaften, wie das folgende Beispiel zeigt:

<synset id="ID" wordCategory="CATEGORY">
  <lexUnit id="ID"  orthVarOf="VAR" acceptable="ACC" sense="SE" source="SRC" namedEntity="NE" artificial="AR" styleMarking="SM">
    <orthForm>ORTHFORM</orthForm>
    <orthVar>ORTHVAR</orthVar>
    <oldOrthForm>OLDORTHFORM</oldOrthForm>
    <oldOrthVar>OLDORTHVAR</oldOrthVar>
    <frame>FRAME</frame>
    <example>
      <text>TEXT</text>
      <exframe>EXFRAME</exframe>
    </example>
    <compound>
      <modifier property="PROP" category="CAT">MODIFIER1</modifier>
      <modifier property="PROP" category="CAT">MODIFIER2</modifier>
      <head property="PROP">HEAD</head>
    </compound>
  </lexUnit>
  <paraphrase>PARAPHRASE</paraphrase>
</synset>

Dokumenttypdefinition (DTD) für Synset-Files

<!ELEMENT synsets     (synset+)>
<!ELEMENT synset      (lexUnit+, paraphrase?)>
<!ATTLIST synset      id       ID                 #REQUIRED
                      category (adj|nomen|verben) #REQUIRED
                      class    (Allgemein|Bewegung|Gefuehl|Geist|
                               Gesellschaft|Koerper|Menge|natPhaenomen|
                               Ort|Pertonym|Perzeption|privativ|Relation|
                               Substanz|Verhalten|Zeit|Artefakt|Attribut|
                               Besitz|Form|Geschehen|Gruppe|Kognition|
                               Kommunikation|Mensch|Motiv|Nahrung|
                               natGegenstand|Pflanze|Tier|Tops|
                               Koerperfunktion|Konkurrenz|Kontakt|
                               Lokation|Schoepfung|Veraenderung|
                               Verbrauch) #REQUIRED>
<!ELEMENT lexUnit     (orthForm, orthVar?, oldOrthForm?, oldOrthVar?,
                      frame*, example*, compound?)>
<!ATTLIST lexUnit     id           ID       #REQUIRED
                      sense        CDATA    #REQUIRED
                      source       CDATA    #REQUIRED
                      namedEntity  (yes|no) #REQUIRED
                      artificial   (yes|no) #REQUIRED
                      styleMarking (yes|no) #REQUIRED>
<!ELEMENT orthForm    (#PCDATA)>
<!ELEMENT orthVar     (#PCDATA)>
<!ELEMENT oldOrthForm (#PCDATA)>
<!ELEMENT oldOrthVar  (#PCDATA)>
<!ELEMENT paraphrase  (#PCDATA)>
<!ELEMENT example     (text, exframe?)>
<!ELEMENT text        (#PCDATA)>
<!ELEMENT frame       (#PCDATA)>
<!ELEMENT exframe     (#PCDATA)>
<!ELEMENT compound    (modifier, modifier?, head)>
<!ELEMENT modifier    (#PCDATA)>
<!ATTLIST modifier    property (Abkürzung|Konfix|Fremdwort|Affixoid|
                               Wortgruppe|Eigenname|opaquesMorphem) #IMPLIED
                      category (Adjektiv|Nomen|Verb|Adverb|Präposition|
                               Partikel|Pronomen) #IMPLIED>
<!ELEMENT head        (#PCDATA)>
<!ATTLIST head        property (Abkürzung|Konfix|Fremdwort|Affixoid|
                               opaquesMorphem|virtuelleBildung) #IMPLIED>

Relationen-File

Dieser Typ von XML-Datei stellt beide Arten von Relationen dar: konzeptuelle und lexikalische Relationen. Alle Relationen werden in einer XML-Datei mit dem Namen gn_relations.xml kodiert.

<con_rel name="hyperonymy" from="ID" to="ID" dir="revert" inv="hyponymy" />
<lex_rel name="antonymy" from="ID" to="ID" dir="both" />

Dokumenttypdefinition (DTD) für Relationen-File

<!ELEMENT relations (lex_rel|con_rel)+>
<!ELEMENT lex_rel EMPTY>
<!ATTLIST lex_rel name 
      (has_antonym|has_participle|has_pertainym|has_active_usage|
      has_occasion|has_attribute|has_appearance|
      has_construction_method|has_container|is_container_for|
      has_consistency_of|has_component|has_owner|is_owner_of|has_function|
      has_manner_of_functioning|has_origin|has_production_method|
      has_content|has_no_property|has_habitat|has_location|is_location_of|
      has_measure|is_measure_of|has_material|has_member|is_member_of|
      has_diet|is_diet_of|has_eponym|has_user|has_product|is_product_of|
      has_prototypical_holder|is_prototypical_holder_for|
      has_prototypical_place_of_usage|has_relation|has_raw_product|
      has_other_property|is_storage_for|has_specialization|has_part|
      is_part_of|has_topic|is_caused_by|is_cause_for|is_comparable_to|
      has_usage|has_result_of_usage|has_purpose_of_usage|has_goods|
      has_time|is_access_to|has_ingredient|is_ingredient_of) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>
<!ELEMENT con_rel EMPTY>
<!ATTLIST con_rel name (hyperonymy|meronymy|holonymy
        |entailment|causation|association) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>

Interlingual-Index-File

Alle Daten des interlingualen Index werden in einer einzigen Datei interLingualIndex_DE-EN.xml gespeichert. Jeder Datensatz ist mit einer bestimmten lexikalischen Einheit verknüpft und enthält Informationen aus dem Princeton WordNet.

<iliRecord lexUnitId="ID" ewnRelation="RELATION"
          pwnWord="WORD" pwn20Sense="SENSE"
          pwn20Id="ID" pwn30Id="ID"
          pwn20paraphrase="PARAPHRASE" source="SOURCE" >
  <pwn20Synonyms>
    <pwn20Synonym>SYNONYM</pwn20Synonym>
    <pwn20Synonym>SYNONYM</pwn20Synonym>
  </pwn20Synonyms>
</iliRecord>

Dokumenttypdefinition (DTD) für Interlingual-Index-File

<!ELEMENT interLingualIndex (iliRecord+)>
<!ELEMENT iliRecord (pwn20Synonyms?)>
<!ATTLIST iliRecord lexUnitId   CDATA #REQUIRED
                    ewnRelation (be_in_state|causes
                        |has_holonym|has_hyperonym
                        |has_hyponym|has_meronym
                        |has_subevent|involved
                        |is_caused_by|is_subevent_of
                        |near_synonym|role|synonym
                        |xpos_near_synonym) #REQUIRED
                    pwnWord     CDATA #REQUIRED
                    pwn20Sense  CDATA #REQUIRED
                    pwn20Id     CDATA #REQUIRED
                    pwn30Id     CDATA #REQUIRED
                    pwn20paraphrase CDATA #IMPLIED
                    source (initial|extension1) #REQUIRED>

<!ELEMENT pwn20Synonyms (pwn20Synonym+)>
<!ELEMENT pwn20Synonym  (#PCDATA)>

Wiktionary-Paraphrasen-Files

Es gibt insgesamt drei Dateien mit Wiktionary-Paraphrasen, die Wörter aus verschiedenen Wortkategorien (Substantive, Verben und Adjektive) enthalten. Diese Dateien sind wie folgt benannt: wiktionaryParaphrases-adj.xml, wiktionaryParaphrases-nomen.xml, wiktionaryParaphrases-verben.xml.

<wiktionaryParaphrase lexUnitId="ID" wiktionaryId="ID" 
      wiktionarySenseId="ID" wiktionarySense="PARAPHRASE"
      edited="EDITED" />

Jede WiktionaryParaphrase verweist auf die ID eines Eintrags in Wiktionary (wiktionaryId), eine Lesarten-ID (wiktionarySenseId) und eine Definition (wiktionarySense) und ist mit einer bestimmten lexikalischen Einheit in GermaNet (lexUnitId) verknüpft. Das Editierattribut gibt an, ob diese spezifische Wiktionary-Definition in ihrem ursprünglichen Wortlaut aus Wiktionary extrahiert oder ob sie (geringfügig) modifiziert wurde.

Dokumenttypdefinition (DTD) für Wiktionary-Paraphrasen-Files

<!ELEMENT wiktionaryParaphrases (wiktionaryParaphrase+)>
<!ELEMENT wiktionaryParaphrase EMPTY>
<!ATTLIST wiktionaryParaphrase
                   lexUnitId         CDATA #REQUIRED
                   wiktionaryId      CDATA #REQUIRED
                   wiktionarySenseId CDATA #REQUIRED
                   wiktionarySense   CDATA #REQUIRED
                   edited            (yes|no) #REQUIRED>