Überblick | University of Tübingen

Zielsetzung

Aufbauend auf Ergebnissen aus der computationellen historischen Linguistik und der statistischen Typologie, versucht das CrossLingference Projekt ein probabilistisches Framework zur Analyse von Sprachwandel- und Sprachdiversifizierungsprozesssen zu etablieren. So können Fragestellungen auf der Schnittstelle von historischer Linguistik und der Typologie analysiert werden. Auf der einen Seite sollen existierende Methoden und Algorithmen adaptiert werden, auf der anderen Seite sollen auch neue Ansätze entwickelt werden. Besonderer Augenmerk liegt hierbei auf der Verwendung von Bayes'schen hierarchischen Modellen.

Arbeitspakete

Arbeitspaket 1: Lexikalische Rekonstruktion

Basierend auf den Daten der NorthEuralex Datenbank soll in einem ersten Schritt lexikalische Rekonstruktion mithilfe von existierenden Algorithmen Protoformen rekonstruiert werden. In einem zweiten Schritt sollen neue Algorithmen entwickelt werden, die in der Lage sind über verschiedene Sprachfamilien zu generalisieren.

Arbeitspaket 2: Hierarchische pyhlogenetische Markov und multinominal Modelle

Ziel dieses Pakets ist die Entwicklung von Algorithmen, die auf die besonderen Anforderungen der phylogenetischen komparativen Methode abgestimmt ist. Insbesondere die Möglichkeit zur Analyse von Phylogenien über disjunkte Taxonmengen und die Verwendung verschiedener Birth-Death Modelle soll bestehen.

Arbeitspaket 3: Sprachkontakt und räumliche Zufallseffekte

Arbeitspaket 3: Sprachkontakt und räumliche Zufallseffekte

Typologische Variation ist stark durch Sprachkontakt beeinflusst. In diesem Arbeitspaket soll Sprachkontakt mithilfe auto-logistischer autoregressiver Modelle untersucht werden.

Arbeitspaket 4: Approximative Bayessche Berechnung und agentenbasierte Simulation

Arbeitspaket 4: Approximative Bayessche Berechnung und agentenbasierte Simulation

Während die Modelle, die in den Arbeitspaketen 1-3 entwickelt werden, stark von traditionellen MCMC Methoden beeinflusst sind, soll in diesem Arbeitspaket die Approximative Bayessche Berechnung verwendet werden, um insbesondere Modelle für lexikalische Rekonstruktion und Sprachkontakt zu entwickeln, die in den klassischen Modellen nicht berechenbar sind.

Arbeitspaket 5: Kausale Inferenz

Ziel dieses Paketes ist es die potenziellen kausalen Verbindungen zwischen typologischen Variablen aufzuzeigen. Diese Inferenz basiert besonders auf den Ergebnissen der Pakete 1 und 3.

Arbeitspaket 6: Softwarebibliothek

Um die Forschungsergebnisse des CrossLingference Projekts für die wissenschaftliche Gemeinschaft zugänglich zu machen, sollen die Algorithmen in einer Softwarebibliothek zur Verfügung gestellt werden.