XML-Dateien
Die GermaNet-Daten werden im XML-Format ausgegeben. Die XML-Dateien repräsentieren alle Daten, die in der GermaNet-Datenbank verfügbar sind. Es gibt zwei Typen von XML-Dateien. Der eine Typ enthält alle Synsets mit ihren lexikalischen Einheiten und ihren anderen Eigenschaften. Der andere Typ enthält alle Relationen, sowohl die konzeptionellen als auch die lexikalischen Relationen.
Synset-Files
Diese Dateien sind entsprechend der drei Wortarten organisiert, die derzeit in GermaNet berücksichtigt werden: Nomina, Adjektive und Verben. Für jede Wortart existiert ein vordefinierter Satz von Dateien, deren Elemente entsprechend der Tabelle der semantischen Felder in GermaNet benannt. Diese Dateien werden also folgendermaßen bezeichnet: wordCategory.wordClass.xml, z.B. adj.Allgemein.xml, nomen.Tops.xml, etc.
Die Synset-Dateien enthalten alle Synsets mit ihren lexikalischen Einheiten und allen anderen Eigenschaften, wie das folgende Beispiel zeigt:
<synset id="ID" wordCategory="CATEGORY">
<lexUnit id="ID" orthVarOf="VAR" acceptable="ACC" sense="SE" source="SRC" namedEntity="NE" artificial="AR" styleMarking="SM">
<orthForm>ORTHFORM</orthForm>
<orthVar>ORTHVAR</orthVar>
<oldOrthForm>OLDORTHFORM</oldOrthForm>
<oldOrthVar>OLDORTHVAR</oldOrthVar>
<frame>FRAME</frame>
<example>
<text>TEXT</text>
<exframe>EXFRAME</exframe>
</example>
<compound>
<modifier property="PROP" category="CAT">MODIFIER1</modifier>
<modifier property="PROP" category="CAT">MODIFIER2</modifier>
<head property="PROP">HEAD</head>
</compound>
</lexUnit>
<paraphrase>PARAPHRASE</paraphrase>
</synset>
Dokumenttypdefinition (DTD) für Synset-Files
<!ELEMENT synsets (synset+)>
<!ELEMENT synset (lexUnit+, paraphrase?)>
<!ATTLIST synset id ID #REQUIRED
category (adj|nomen|verben) #REQUIRED
class (Allgemein|Bewegung|Gefuehl|Geist|
Gesellschaft|Koerper|Menge|natPhaenomen|
Ort|Pertonym|Perzeption|privativ|Relation|
Substanz|Verhalten|Zeit|Artefakt|Attribut|
Besitz|Form|Geschehen|Gruppe|Kognition|
Kommunikation|Mensch|Motiv|Nahrung|
natGegenstand|Pflanze|Tier|Tops|
Koerperfunktion|Konkurrenz|Kontakt|
Lokation|Schoepfung|Veraenderung|
Verbrauch) #REQUIRED>
<!ELEMENT lexUnit (orthForm, orthVar?, oldOrthForm?, oldOrthVar?,
frame*, example*, compound?)>
<!ATTLIST lexUnit id ID #REQUIRED
sense CDATA #REQUIRED
source CDATA #REQUIRED
namedEntity (yes|no) #REQUIRED
artificial (yes|no) #REQUIRED
styleMarking (yes|no) #REQUIRED>
<!ELEMENT orthForm (#PCDATA)>
<!ELEMENT orthVar (#PCDATA)>
<!ELEMENT oldOrthForm (#PCDATA)>
<!ELEMENT oldOrthVar (#PCDATA)>
<!ELEMENT paraphrase (#PCDATA)>
<!ELEMENT example (text, exframe?)>
<!ELEMENT text (#PCDATA)>
<!ELEMENT frame (#PCDATA)>
<!ELEMENT exframe (#PCDATA)>
<!ELEMENT compound (modifier, modifier?, head)>
<!ELEMENT modifier (#PCDATA)>
<!ATTLIST modifier property (Abkürzung|Konfix|Fremdwort|Affixoid|
Wortgruppe|Eigenname|opaquesMorphem) #IMPLIED
category (Adjektiv|Nomen|Verb|Adverb|Präposition|
Partikel|Pronomen) #IMPLIED>
<!ELEMENT head (#PCDATA)>
<!ATTLIST head property (Abkürzung|Konfix|Fremdwort|Affixoid|
opaquesMorphem|virtuelleBildung) #IMPLIED>
Relationen-File
Dieser Typ von XML-Datei stellt beide Arten von Relationen dar: konzeptuelle und lexikalische Relationen. Alle Relationen werden in einer XML-Datei mit dem Namen gn_relations.xml kodiert.
<con_rel name="hyperonymy" from="ID" to="ID" dir="revert" inv="hyponymy" />
<lex_rel name="antonymy" from="ID" to="ID" dir="both" />
Dokumenttypdefinition (DTD) für Relationen-File
<!ELEMENT relations (lex_rel|con_rel)+>
<!ELEMENT lex_rel EMPTY>
<!ATTLIST lex_rel name
(has_antonym|has_participle|has_pertainym|has_active_usage|
has_occasion|has_attribute|has_appearance|
has_construction_method|has_container|is_container_for|
has_consistency_of|has_component|has_owner|is_owner_of|has_function|
has_manner_of_functioning|has_origin|has_production_method|
has_content|has_no_property|has_habitat|has_location|is_location_of|
has_measure|is_measure_of|has_material|has_member|is_member_of|
has_diet|is_diet_of|has_eponym|has_user|has_product|is_product_of|
has_prototypical_holder|is_prototypical_holder_for|
has_prototypical_place_of_usage|has_relation|has_raw_product|
has_other_property|is_storage_for|has_specialization|has_part|
is_part_of|has_topic|is_caused_by|is_cause_for|is_comparable_to|
has_usage|has_result_of_usage|has_purpose_of_usage|has_goods|
has_time|is_access_to|has_ingredient|is_ingredient_of) #REQUIRED
dir (one|both|revert) #REQUIRED
inv CDATA #IMPLIED
from CDATA #REQUIRED
to CDATA #REQUIRED>
<!ELEMENT con_rel EMPTY>
<!ATTLIST con_rel name (hyperonymy|meronymy|holonymy
|entailment|causation|association) #REQUIRED
dir (one|both|revert) #REQUIRED
inv CDATA #IMPLIED
from CDATA #REQUIRED
to CDATA #REQUIRED>
Interlingual-Index-File
Alle Daten des interlingualen Index werden in einer einzigen Datei interLingualIndex_DE-EN.xml gespeichert. Jeder Datensatz ist mit einer bestimmten lexikalischen Einheit verknüpft und enthält Informationen aus dem Princeton WordNet.
<iliRecord lexUnitId="ID" ewnRelation="RELATION"
pwnWord="WORD" pwn20Sense="SENSE"
pwn20Id="ID" pwn30Id="ID"
pwn20paraphrase="PARAPHRASE" source="SOURCE" >
<pwn20Synonyms>
<pwn20Synonym>SYNONYM</pwn20Synonym>
<pwn20Synonym>SYNONYM</pwn20Synonym>
</pwn20Synonyms>
</iliRecord>
Dokumenttypdefinition (DTD) für Interlingual-Index-File
<!ELEMENT interLingualIndex (iliRecord+)>
<!ELEMENT iliRecord (pwn20Synonyms?)>
<!ATTLIST iliRecord lexUnitId CDATA #REQUIRED
ewnRelation (be_in_state|causes
|has_holonym|has_hyperonym
|has_hyponym|has_meronym
|has_subevent|involved
|is_caused_by|is_subevent_of
|near_synonym|role|synonym
|xpos_near_synonym) #REQUIRED
pwnWord CDATA #REQUIRED
pwn20Sense CDATA #REQUIRED
pwn20Id CDATA #REQUIRED
pwn30Id CDATA #REQUIRED
pwn20paraphrase CDATA #IMPLIED
source (initial|extension1) #REQUIRED>
<!ELEMENT pwn20Synonyms (pwn20Synonym+)>
<!ELEMENT pwn20Synonym (#PCDATA)>
Wiktionary-Paraphrasen-Files
Es gibt insgesamt drei Dateien mit Wiktionary-Paraphrasen, die Wörter aus verschiedenen Wortkategorien (Substantive, Verben und Adjektive) enthalten. Diese Dateien sind wie folgt benannt: wiktionaryParaphrases-adj.xml, wiktionaryParaphrases-nomen.xml, wiktionaryParaphrases-verben.xml.
<wiktionaryParaphrase lexUnitId="ID" wiktionaryId="ID"
wiktionarySenseId="ID" wiktionarySense="PARAPHRASE"
edited="EDITED" />
Jede WiktionaryParaphrase verweist auf die ID eines Eintrags in Wiktionary (wiktionaryId), eine Lesarten-ID (wiktionarySenseId) und eine Definition (wiktionarySense) und ist mit einer bestimmten lexikalischen Einheit in GermaNet (lexUnitId) verknüpft. Das Editierattribut gibt an, ob diese spezifische Wiktionary-Definition in ihrem ursprünglichen Wortlaut aus Wiktionary extrahiert oder ob sie (geringfügig) modifiziert wurde.
Dokumenttypdefinition (DTD) für Wiktionary-Paraphrasen-Files
<!ELEMENT wiktionaryParaphrases (wiktionaryParaphrase+)>
<!ELEMENT wiktionaryParaphrase EMPTY>
<!ATTLIST wiktionaryParaphrase
lexUnitId CDATA #REQUIRED
wiktionaryId CDATA #REQUIRED
wiktionarySenseId CDATA #REQUIRED
wiktionarySense CDATA #REQUIRED
edited (yes|no) #REQUIRED>