Seminar für Sprachwissenschaft

XML-Dateien


Die GermaNet-Daten werden im XML-Format ausgegeben. Die XML-Dateien repräsentieren alle Daten, die in der GermaNet-Datenbank verfügbar sind. Es gibt zwei Typen von XML-Dateien. Der eine Typ enthält alle Synsets mit ihren lexikalischen Einheiten und ihren anderen Eigenschaften. Der andere Typ enthält alle Relationen, sowohl die konzeptionellen als auch die lexikalischen Relationen.

Synset-Files

Diese Dateien sind entsprechend der drei Wortarten organisiert, die derzeit in GermaNet berücksichtigt werden: Nomina, Adjektive und Verben. Für jede Wortart existiert ein vordefinierter Satz von Dateien, deren Elemente entsprechend der Tabelle der semantischen Felder in GermaNet benannt. Diese Dateien werden also folgendermaßen bezeichnet: wordCategory.wordClass.xml, z.B. adj.Allgemein.xmlnomen.Tops.xml, etc.

Die Synset-Dateien enthalten alle Synsets mit ihren lexikalischen Einheiten und allen anderen Eigenschaften, wie das folgende Beispiel zeigt:

<synset id="ID" wordCategory="CATEGORY">
  <lexUnit id="ID"  orthVarOf="VAR" acceptable="ACC" sense="SE" source="SRC" namedEntity="NE" artificial="AR" styleMarking="SM">
    <orthForm>ORTHFORM</orthForm>
    <orthVar>ORTHVAR</orthVar>
    <oldOrthForm>OLDORTHFORM</oldOrthForm>
    <oldOrthVar>OLDORTHVAR</oldOrthVar>
    <frame>FRAME</frame>
    <example>
      <text>TEXT</text>
      <exframe>EXFRAME</exframe>
    </example>
    <compound>
      <modifier property="PROP" category="CAT">MODIFIER1</modifier>
      <modifier property="PROP" category="CAT">MODIFIER2</modifier>
      <head property="PROP">HEAD</head>
    </compound>
  </lexUnit>
  <paraphrase>PARAPHRASE</paraphrase>
</synset>

Dokumenttypdefinition (DTD) für Synset-Files

<!ELEMENT synsets     (synset+)>
<!ELEMENT synset      (lexUnit+, paraphrase?)>
<!ATTLIST synset      id       ID                 #REQUIRED
                      category (adj|nomen|verben) #REQUIRED
                      class    (Allgemein|Bewegung|Gefuehl|Geist|
                               Gesellschaft|Koerper|Menge|natPhaenomen|
                               Ort|Pertonym|Perzeption|privativ|Relation|
                               Substanz|Verhalten|Zeit|Artefakt|Attribut|
                               Besitz|Form|Geschehen|Gruppe|Kognition|
                               Kommunikation|Mensch|Motiv|Nahrung|
                               natGegenstand|Pflanze|Tier|Tops|
                               Koerperfunktion|Konkurrenz|Kontakt|
                               Lokation|Schoepfung|Veraenderung|
                               Verbrauch) #REQUIRED>
<!ELEMENT lexUnit     (orthForm, orthVar?, oldOrthForm?, oldOrthVar?,
                      frame*, example*, compound?)>
<!ATTLIST lexUnit     id           ID       #REQUIRED
                      sense        CDATA    #REQUIRED
                      source       CDATA    #REQUIRED
                      namedEntity  (yes|no) #REQUIRED
                      artificial   (yes|no) #REQUIRED
                      styleMarking (yes|no) #REQUIRED>
<!ELEMENT orthForm    (#PCDATA)>
<!ELEMENT orthVar     (#PCDATA)>
<!ELEMENT oldOrthForm (#PCDATA)>
<!ELEMENT oldOrthVar  (#PCDATA)>
<!ELEMENT paraphrase  (#PCDATA)>
<!ELEMENT example     (text, exframe?)>
<!ELEMENT text        (#PCDATA)>
<!ELEMENT frame       (#PCDATA)>
<!ELEMENT exframe     (#PCDATA)>
<!ELEMENT compound    (modifier, modifier?, head)>
<!ELEMENT modifier    (#PCDATA)>
<!ATTLIST modifier    property (Abkürzung|Konfix|Fremdwort|Affixoid|
                               Wortgruppe|Eigenname|opaquesMorphem) #IMPLIED
                      category (Adjektiv|Nomen|Verb|Adverb|Präposition|
                               Partikel|Pronomen) #IMPLIED>
<!ELEMENT head        (#PCDATA)>
<!ATTLIST head        property (Abkürzung|Konfix|Fremdwort|Affixoid|
                               opaquesMorphem|virtuelleBildung) #IMPLIED>

Relationen-File

Dieser Typ von XML-Datei stellt beide Arten von Relationen dar: konzeptuelle und lexikalische Relationen. Alle Relationen werden in einer XML-Datei mit dem Namen gn_relations.xml kodiert.

<con_rel name="hyperonymy" from="ID" to="ID" dir="revert" inv="hyponymy" />
<lex_rel name="antonymy" from="ID" to="ID" dir="both" />

Dokumenttypdefinition (DTD) für Relationen-File

<!ELEMENT relations (lex_rel|con_rel)+>
<!ELEMENT lex_rel EMPTY>
<!ATTLIST lex_rel name 
      (has_antonym|has_participle|has_pertainym|has_active_usage|
      has_occasion|has_attribute|has_appearance|
      has_construction_method|has_container|is_container_for|
      has_consistency_of|has_component|has_owner|is_owner_of|has_function|
      has_manner_of_functioning|has_origin|has_production_method|
      has_content|has_no_property|has_habitat|has_location|is_location_of|
      has_measure|is_measure_of|has_material|has_member|is_member_of|
      has_diet|is_diet_of|has_eponym|has_user|has_product|is_product_of|
      has_prototypical_holder|is_prototypical_holder_for|
      has_prototypical_place_of_usage|has_relation|has_raw_product|
      has_other_property|is_storage_for|has_specialization|has_part|
      is_part_of|has_topic|is_caused_by|is_cause_for|is_comparable_to|
      has_usage|has_result_of_usage|has_purpose_of_usage|has_goods|
      has_time|is_access_to|has_ingredient|is_ingredient_of) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>
<!ELEMENT con_rel EMPTY>
<!ATTLIST con_rel name (hyperonymy|meronymy|holonymy
        |entailment|causation|association) #REQUIRED
                  dir  (one|both|revert) #REQUIRED
                  inv  CDATA #IMPLIED
                  from CDATA #REQUIRED
                  to   CDATA #REQUIRED>

Interlingual-Index-File

Alle Daten des interlingualen Index werden in einer einzigen Datei interLingualIndex_DE-EN.xml gespeichert. Jeder Datensatz ist mit einer bestimmten lexikalischen Einheit verknüpft und enthält Informationen aus dem Princeton WordNet.

<iliRecord lexUnitId="ID" ewnRelation="RELATION"
          pwnWord="WORD" pwn20Sense="SENSE"
          pwn20Id="ID" pwn30Id="ID"
          pwn20paraphrase="PARAPHRASE" source="SOURCE" >
  <pwn20Synonyms>
    <pwn20Synonym>SYNONYM</pwn20Synonym>
    <pwn20Synonym>SYNONYM</pwn20Synonym>
  </pwn20Synonyms>
</iliRecord>

Dokumenttypdefinition (DTD) für Interlingual-Index-File

<!ELEMENT interLingualIndex (iliRecord+)>
<!ELEMENT iliRecord (pwn20Synonyms?)>
<!ATTLIST iliRecord lexUnitId   CDATA #REQUIRED
                    ewnRelation (be_in_state|causes
                        |has_holonym|has_hyperonym
                        |has_hyponym|has_meronym
                        |has_subevent|involved
                        |is_caused_by|is_subevent_of
                        |near_synonym|role|synonym
                        |xpos_near_synonym) #REQUIRED
                    pwnWord     CDATA #REQUIRED
                    pwn20Sense  CDATA #REQUIRED
                    pwn20Id     CDATA #REQUIRED
                    pwn30Id     CDATA #REQUIRED
                    pwn20paraphrase CDATA #IMPLIED
                    source (initial|extension1) #REQUIRED>

<!ELEMENT pwn20Synonyms (pwn20Synonym+)>
<!ELEMENT pwn20Synonym  (#PCDATA)>

Wiktionary-Paraphrasen-Files

Es gibt insgesamt drei Dateien mit Wiktionary-Paraphrasen, die Wörter aus verschiedenen Wortkategorien (Substantive, Verben und Adjektive) enthalten. Diese Dateien sind wie folgt benannt: wiktionaryParaphrases-adj.xml, wiktionaryParaphrases-nomen.xml, wiktionaryParaphrases-verben.xml.

<wiktionaryParaphrase lexUnitId="ID" wiktionaryId="ID" 
      wiktionarySenseId="ID" wiktionarySense="PARAPHRASE"
      edited="EDITED" />

Jede WiktionaryParaphrase verweist auf die ID eines Eintrags in Wiktionary (wiktionaryId), eine Lesarten-ID (wiktionarySenseId) und eine Definition (wiktionarySense) und ist mit einer bestimmten lexikalischen Einheit in GermaNet (lexUnitId) verknüpft. Das Editierattribut gibt an, ob diese spezifische Wiktionary-Definition in ihrem ursprünglichen Wortlaut aus Wiktionary extrahiert oder ob sie (geringfügig) modifiziert wurde.

Dokumenttypdefinition (DTD) für Wiktionary-Paraphrasen-Files

<!ELEMENT wiktionaryParaphrases (wiktionaryParaphrase+)>
<!ELEMENT wiktionaryParaphrase EMPTY>
<!ATTLIST wiktionaryParaphrase
                   lexUnitId         CDATA #REQUIRED
                   wiktionaryId      CDATA #REQUIRED
                   wiktionarySenseId CDATA #REQUIRED
                   wiktionarySense   CDATA #REQUIRED
                   edited            (yes|no) #REQUIRED>

Datenschutzeinstellungen

Auf unserer Webseite werden Cookies verwendet. Einige davon werden zwingend benötigt, während es uns andere ermöglichen, Ihre Nutzererfahrung auf unserer Webseite zu verbessern. Ihre getroffenen Einstellungen können jederzeit bearbeitet werden.

oder

Essentiell

in2code

Videos

in2code
YouTube
Google