XML-Dateien

Die GermaNet-Daten werden im XML-Format ausgegeben. Die XML-Dateien repräsentieren alle Daten, die in der GermaNet-Datenbank verfügbar sind. Es gibt zwei Typen von XML-Dateien. Der eine Typ enthält alle Synsets mit ihren lexikalischen Einheiten und ihren anderen Eigenschaften. Der andere Typ enthält alle Relationen, sowohl die konzeptionellen als auch die lexikalischen Relationen.

Synset-Files

Diese Dateien sind entsprechend der drei Wortarten organisiert, die derzeit in GermaNet berücksichtigt werden: Nomina, Adjektive und Verben. Für jede Wortart existiert ein vordefinierter Satz von Dateien, deren Elemente entsprechend der Tabelle der semantischen Felder in GermaNet benannt. Diese Dateien werden also folgendermaßen bezeichnet: wordCategory.wordClass.xml, z.B. adj.Allgemein.xml, nomen.Tops.xml, etc.

Die Synset-Dateien enthalten alle Synsets mit ihren lexikalischen Einheiten und allen anderen Eigenschaften, wie das folgende Beispiel zeigt:

<synset id="ID" wordCategory="CATEGORY">
<lexUnit id="ID" orthVarOf="VAR" acceptable="ACC" sense="SE" source="SRC" namedEntity="NE" artificial="AR" styleMarking="SM">
<orthForm>ORTHFORM</orthForm>
<orthVar>ORTHVAR</orthVar>
<oldOrthForm>OLDORTHFORM</oldOrthForm>
<oldOrthVar>OLDORTHVAR</oldOrthVar>
<frame>FRAME</frame>
<example>
<text>TEXT</text>
<exframe>EXFRAME</exframe>
</example>
<compound>
<modifier property="PROP" category="CAT">MODIFIER1</modifier>
<modifier property="PROP" category="CAT">MODIFIER2</modifier>
<head property="PROP">HEAD</head>
</compound>
</lexUnit>
<paraphrase>PARAPHRASE</paraphrase>
</synset>

Dokumenttypdefinition (DTD) für Synset-Files

Relationen-File

Dieser Typ von XML-Datei stellt beide Arten von Relationen dar: konzeptuelle und lexikalische Relationen. Alle Relationen werden in einer XML-Datei mit dem Namen gn_relations.xml kodiert.

<con_rel name="hyperonymy" from="ID" to="ID" dir="revert" inv="hyponymy" />
<lex_rel name="antonymy" from="ID" to="ID" dir="both" />

Dokumenttypdefinition (DTD) für Relationen-File

Interlingual-Index-File

Alle Daten des interlingualen Index werden in einer einzigen Datei interLingualIndex_DE-EN.xml gespeichert. Jeder Datensatz ist mit einer bestimmten lexikalischen Einheit verknüpft und enthält Informationen aus dem Princeton WordNet.

<iliRecord lexUnitId="ID" ewnRelation="RELATION"
pwnWord="WORD" pwn20Sense="SENSE"
pwn20Id="ID" pwn30Id="ID"
pwn20paraphrase="PARAPHRASE" source="SOURCE" >
<pwn20Synonyms>
<pwn20Synonym>SYNONYM</pwn20Synonym>
<pwn20Synonym>SYNONYM</pwn20Synonym>
</pwn20Synonyms>
</iliRecord>

Dokumenttypdefinition (DTD) für Interlingual-Index-File

<!ELEMENT pwn20Synonyms (pwn20Synonym+)>
<!ELEMENT pwn20Synonym (#PCDATA)>

Wiktionary-Paraphrasen-Files

Es gibt insgesamt drei Dateien mit Wiktionary-Paraphrasen, die Wörter aus verschiedenen Wortkategorien (Substantive, Verben und Adjektive) enthalten. Diese Dateien sind wie folgt benannt: wiktionaryParaphrases-adj.xml, wiktionaryParaphrases-nomen.xml, wiktionaryParaphrases-verben.xml.

Jede WiktionaryParaphrase verweist auf die ID eines Eintrags in Wiktionary (wiktionaryId), eine Lesarten-ID (wiktionarySenseId) und eine Definition (wiktionarySense) und ist mit einer bestimmten lexikalischen Einheit in GermaNet (lexUnitId) verknüpft. Das Editierattribut gibt an, ob diese spezifische Wiktionary-Definition in ihrem ursprünglichen Wortlaut aus Wiktionary extrahiert oder ob sie (geringfügig) modifiziert wurde.

Dokumenttypdefinition (DTD) für Wiktionary-Paraphrasen-Files

<!ELEMENT wiktionaryParaphrases (wiktionaryParaphrase+)>
<!ELEMENT wiktionaryParaphrase EMPTY>
<!ATTLIST wiktionaryParaphrase
lexUnitId CDATA #REQUIRED
wiktionaryId CDATA #REQUIRED
wiktionarySenseId CDATA #REQUIRED
wiktionarySense CDATA #REQUIRED
edited (yes|no) #REQUIRED>