Seminar für Sprachwissenschaft

Das Korpus TüPP-D/Z

TüPP-D/Z wurde im Rahmen der Projekte DEREKO, Kompetenzzentrum für Text- und Informationstechnologie (KIT) und mit Hilfe des Projekts A1 des Sonderforschungsbereiches 441 erstellt.

TüPP-D/Z ist eine Sammlung von Texten aus der Zeitung die tageszeitung (taz), die automatisch hinsichtlich Satzstruktur, topologischen Feldern und Chunks annotiert wurden, aufbauend auf morphosyntaktischer Annotation und morphologischen Ambiguitätsklassen. Alle Texte wurden maschinell verarbeitet. Zunächst wurden die Texte in Absätze, Sätze und Wortformen segmentiert. Die Wortformen beinhalten Informationen zu häufigen Named Entities, wie Datumsangaben, Telefonnummern und Zahlen mit Einheitsangaben.

Die Daten des aktuellen Release der TüPP-D/Z entstammen der Wissenschaftsausgabe der taz aus dem Jahr 1999. Sie umfassen den Zeitraum vom 2. September 1986 bis zum 7. Mai 1999 und enthalten 11.512.293 Sätze bzw. 204.425.497 Tokens.

Eine detailliertere Beschreibung der tieferen linguistischen Annotation findet sich im  Stylebook , während die Kodierung der Annotation im Markup Manual beschrieben ist. 

Die TüPP-D/Z-Distribution ist in XML kodiert. Konverter zur Ansicht z.B. im geklammerten Vertikalformat liegen dem Korpus bei. 

Wie erhalte ich eine Lizenz für TüPP-D/Z?

Der im Korpus enthaltene Rohtext von "die tageszeitung" unterliegt dem Urheberrecht der contrapress media GmbH, Berlin.  Lizenzen werden von Fall zu Fall nach dem Ermessen des Copyright-Inhabers erteilt und können Gebühren oder Beschränkungen für die Datennutzung enthalten. Bitte kontaktieren Sie tuebadz-info für weitere Informationen.