Folgende Projekte sind gerade in der Arbeitsgruppe der Quantiativen Linguistik angesiedelt und werden von uns bearbeitet. Eine inhaltliche Darstellung der momentan bearbeiteten Forschungsideen findet sich in englischer Sprache auf Harald Baayens Homepage. Die Projekte, die in der Vergangenheit von der Arbeitsgruppe bearbeitet wurden, aber momentan nicht finanziert sind, können unter Abgeschlossene Projekte nachgelesen werden.
ERC-WIDE
Wide Incremental learning with Discrimination nEtworks
Details zu ERC-WIDE
Vorhaben
In dem Projekt WIDE (Wide Incremental learning with Discrimination nEtworks) wird versucht einen tieferen Einblick zu gewinnen, wie wir in der Alltagssprache Wörter bilden und verstehen.
Wörter können sich in alltäglichen Unterhaltungen deutlich von der geschriebenen Form unterscheiden: Im Deutschen wird „würden“ häufig als „wün“ ausgesprochen, im Niederländischen „natuurlijk“ (‚natürlich‘) zu „tk“ reduziert, und im chinesischen Mandarin wird 要不然 (jao pu zan, ‚andererseits‘) zu „ui“. Gängigen Theorien zufolge werden die Klangwellen, die unsere Ohren erreichen, zu Abfolgen abstrakter Lauteinheiten reduziert – ähnlich wie die Aneinanderreihung von Buchstaben, die geschriebene Wörter ergeben. Um die Bedeutung einer Äußerung zu erfassen, müssten die stark reduzierten Formen wie „wün“, „tk“ und „ui“ den entsprechenden ungekürzten Formen zugeordnet werden. Wie das als Rechenanleitung im Computer gelingen soll, ist ein bisher ungelöstes Problem.
Dem Projekt WIDE ist den radikalen Vorschlag zugrunde gelegt, die buchstabenähnlichen Lauteinheiten ganz beiseite zu lassen und sich stattdessen auf die vielfältigen Details des Sprachsignals selbst zu konzentrieren. Ausgehend von den zehntausenden veränderlichen Merkmalen eines Sprachsignals will man künstliche neurale Netzwerke durch Versuch und Irrtum lernen lassen, welche Bedeutungen jeweils gemeint sind. In früheren Forschungsarbeiten, die von der Alexander von Humboldt-Stiftung gefördert wurden, konnte man bereits belegen, dass diese Vorgehensweise grundsätzlich Erfolge zeitigt. Im WIDE-Projekt soll dieser Ansatz weiterentwickelt und über das Deutsche hinaus auf andere Sprachen ausgedehnt werden, darunter die tonale Sprache Mandarin und Estnisch, eine komplexe Sprache mit 28 bis 40 verschiedenen Formen eines Substantivs. Im WIDE-Projekt will man auch ein Computermodell zur Formung von Wörtern in der gesprochenen Sprache ohne den Einsatz von buchstabenähnlichen Lauteinheiten entwickeln.
Der Projektname „WIDE“ hebt einen zweiten Aspekt hervor, in dem das Projekt eine radikale Abkehr von gängigen Ansätzen in der Linguistik und bei der Erforschung der Verarbeitung natürlicher Sprache vornimmt: Statt tiefe vielschichtige lernende Netzwerke zu verwenden, konzentriert man sich auf das Potenzial ‚weiter‘, ausgedehnter, aber nur zweischichtiger Netzwerke mit Zehntausenden von Ein- und Ausgangseinheiten.
Mitarbeiter
-
R. Harald Baayen (Professor, Projektleiter)
-
Yu-Ying Chuang (Postdoktorandin)
-
Maja Linke (Doktorandin)
-
Jessie Nixon (Postdoktorandin)
-
Maria Heitmeier (Doktorandin)
-
Tino Sering (Doktorand)
-
Elnaz Shafaei Bajestan (Doktorandin)
-
Kun Sun (Postdoktorand)
DFG-ART
Spoken Morphology: Phonetics and phonology of complex words
DFG-Forscher Gruppe FOR 2373 (Sprecher: Prof. Dr. Ingo Plag)
Details zu DFG-ART
Teilprojekt ART: Die Artikulation morphologisch komplexer Wörter
Tübinger Teilprojekt in DFG-ART
In Tübingen erfoschen wir als Teil des DFG-ART Projekts die Artikulation morphologisch komplexer Wörter mit Hilfe von Elektromagnetischer Artikulografie. Das Projekt wird von der Deutsche Forschungsgemeinschaft finanziell unterstützt.
Mitarbeiter
- R. Harald Baayen (Projektleiter)
- Benjamin V. Tucker (Mercator Fellow)
- Fabian Tomaschek (Postdoktorand)
- Motoki Saito (Doktorand)
DFG-EML
Machinelles Lernen für die Wissenschaft
Exzellenzcluster - Machinelles Lernen für die Wissenschaft (Cluster Sprecher: Philipp Berens, Cluster Sprecherin: Ulrike von Luxburg)
Details zu DFG-EML
Innovation Fund Projekt 1 in Forschungsbereich A - Verstehen jenseits einfacher Vorhersagen
Im Forschungsbereich A arbeiten wir an Algorithmen, die koplexe Strukturen und kausale Zusammenhänge in Daten erkennen, um maschinelles Lernen besser in den wissenschaftlichen Erkenntnisprozess zu integrieren. In Projekt 1 untersuchen wir "Enhancing Machine Learning of Lexical Semantics with Image Mining".
Mitarbeiter
- Hendrik Lensch (Projektleiter)
- R. Harald Baayen (Projektleiter)
- Zohreh Ghaderi (Doktorandin)
- Hassan Shahmohammadi (Doktorand)