Seminar für Sprachwissenschaft

Index Thomisticus Baumbank

Der Index Thomisticus, eines der ersten großen, automatisch/maschinell durchsuchbaren Textkorpora, wurde im Jahr 1949 von Pater Roberto Busa (1913-2011) gegründet. Das Projekt war für die Anfänge der Computerlinguistik von bahnbrechender Bedeutung. Ihm ist, neben anderen Neuerungen in der digitalen Korpuslinguistik, die Entwicklung der ersten maschinengenerierten Konkordanz zu verdanken.

Der Index enthält die 118 Werke des Opera Omnia (Gesamtwerk) von Thomas von Aquin in digitaler Form sowie 61 Texte anderer Autoren, die sich auf Thomas von Aquin beziehen oder die ihm zugeschrieben werden. Insgesamt haben wir es mit 11 Millionen morphologisch getaggter und lemmatisierter Tokens zu tun. Seit 1989 ist der Index auf CD-Rom erhältlich und seit 2005 im Internet auf der Webseite des Corpus Thomisticum.

Anfang der 1970er Jahre entwickelte Pater Busa ein Projekt, das sowohl die morphosyntaktische Disambiguierung als auch die syntaktische Annotation des Index Thomisticus zum Ziel hatte. Beides wird heute von der Index Thomisticus Baumbank ausgeführt (IT-Baumbank), die am CIRCSE Forschungszentrum der Università Cattolica del Sacro Cuore angesiedelt ist und von Marco Passarotti geleitet wird.

Umfang der Baumbank

Derzeit umfasst die IT-Baumbank 170.030 Tokens bzw. 9.497 Sätze mit POS-Tags, Lemmas, morphologischer Annotation und syntaktischer Dependenz-Annotation, die aus drei Werken des Index Thomisticus entnommen sind:

  •  Scriptum super Sententiis magistri Petri Lombardi 

    (andere Bezeichnungen Scriptum Super libros Sententiarum und Scriptum super Sententiis)

  •  Summa contra Gentiles 
  •  Summa Theologiæ 

Der Ansatz der IT-Baumbank in Bezug auf die syntaktische Auszeichnung basiert im Wesentlichen auf der Prague Dependency Treebank. Bei dieser handelt es sich um eine Dependenz-Baumbank, die Abhängigkeitsstrukturen zwischen Wörtern und Tokens annotiert. Dependenzgrammatiken werden hauptsächlich auf Sprachen angewendet, die eine streng analytische Morphologie aufweisen, wie zum Beispiel das Lateinische.

Die Annotation folgt den PDT Annotation Guidelines.

Die IT-Baumbank ist derzeit im CoNLL-Format erhältlich. Die Formate CSTS-SGML (Czech Sentence Tree Structure) und PML-XML (Prague Markup Language) sowie TCF (Text Corpus Format) folgen in Kürze.

Lizenz

Die Index Thomisticus Baumbank wird vom Centro Interdisciplinare di Ricerche per la Computerizzazione dei Segni dell’Espressione (CIRCSE) der Università Cattolica del Sacro Cuore herausgegeben. Sie ist unter der Creative Commons Attribution-nonCommercial-ShareAlike 3.0 Unported Lizenz verfügbar.

Download

Kontakt

Scott Martens

Eberhard Karls University of Tübingen
Department of Computational Linguistics
Wilhelmstr. 19
D-72074 Tübingen, Germany
Tel: +49-7071-29-73969
Fax: +49-7071-29-75214