Seminar für Sprachwissenschaft

Repository

Forschungsdatenrepositorium

Die Datenressourcen von TALAR (Tübingen Archive for Language Resources) der Universität Tübingen umfassen Korpora für gesprochene Sprache und geschriebene Texte, die auf verschiedenen Ebenen der linguistischen Annotation von Morphologie, Syntax und Semantik annotiert werden. Dazu kommen lexikalischen Ressourcen, die eng verbunden sind mit anderen lexikalischen und textuellen Ressourcen aus dem Text+ Konsortium. Die Korpora und lexikalischen Ressourcen sind für die datengetriebene Forschung sowohl in der theoretischen Linguistik als auch in der Computerlinguistik unverzichtbar. Die Annotationen umfassen verschiedene syntaktische Theorien und halten sich an die in der Gemeinschaft weit verbreiteten Kodierungsstandards sowie an die Kodierungsstandards der International Standards Organization (ISO). Diese Ressourcen sind im TALAR-Datenrepository untergebracht, das mit dem Core Trust Seal (CTS) zertifiziert wurde und standardisierte Protokolle für den Daten-Ingest von externen Datenressourcen entwickelt hat. TALAR beherbergt eine Sammlung von weit verbreiteten syntaktisch annotierten Korpora, die so genannten TüBa-Baumbanken für Deutsch, Englisch und Japanisch. Darüber hinaus enthält TALAR eine große Anzahl extern entwickelter Treebanks im Rahmen der Universal Dependencies. Alle sprachlich annotierten Korpora der UniTÜ können mit der Webanwendung TüNDRA (Tübingen Annotated Data Retrieval Application) durchsucht und visualisiert werden und sind auch über die CLARIN und Text+ Federated Content Search zugänglich. Zusätzlich zu den sprachlich annotierten Korpora bietet die UniTÜ Datendienste in Form von Vektorraum-Wortdarstellungen und zugehörigen Softwaretools an. Darüber hinaus bietet UniTü Softwaredienste für die inkrementelle Annotation externer Textkorpora über die virtuelle Forschungsumgebung WebLicht an. WebLicht ermöglicht u.a. die automatische Anreicherung von Textkorpora mit einer Names-Entity-Erkennung auf der Basis von Deep-Learning-Tools und kann somit als Werkzeug für die automatische Anreicherung unstrukturierter Daten und die anschließende Verknüpfung mit Autoritätsdaten sowie verknüpften offenen Daten genutzt werden. Die lexikalischen Ressourcen sind eng mit anderen lexikalischen und textuellen Ressourcen verbunden und mit ihnen interoperabel. Das Valenzwörterbuch der deutschen Verben wurde aus großen Textkorpora abgeleitet und ist daher mit Korpusdaten verknüpft. GermaNet ist eine lexikalische Datenbank der Wortbedeutungen für zeitgenössiche deutsche Substantive, Verben und Adjektive, die über einen interlingualen Index direkt mit Wortnetzen von mehr als fünfzig Sprachen der Welt verbunden ist. Neben anderen Wortnetzen ist GermaNet mit anderen digital entstandenen Ressourcen wie Wikipedia und Wiktionary verknüpft. Zusammengenommen bieten sie eine solide Grundlage für die Beurteilung lexikalischer Ähnlichkeit und Unähnlichkeit. Diese beiden Begriffe sind sowohl für die psycho- und neurolinguistische Forschung als auch für die Themenmodellierung und die semantische Suche in einem breiten Spektrum von Disziplinen, das von Anwendungen in der Informatik bis hin zur literaturwissenschaftlichen Forschung reicht, unerlässlich. Hier sind z.B. Autorenidentifizierung und Genreklassifizierung sowie die semantische Suche nach Wörterbuchdaten oder nach großen Metadatensammlungen zu nennen. Neben dem akademischen Bereich ist GermaNet auch für industrielle Anwendungen sehr gefragt. Darüber hinaus bietet die Verknüpfung der Wortsinne über semantische Beziehungen einen idealen Ausgangspunkt für die Konvertierung von Wortnetzdaten in verknüpfte offene Datenformate und für die einfache Integration in Wissensgraphen. Dementsprechend wird das Mapping von GermaNet auf verknüpfte offene Daten und Wissensgraphen einen erheblichen Mehrwert für Text+ bieten und eine direkte Datenbrücke zu anderen NFDI-Konsortien bilden.