Zusammenfassung
In dem Projekt WIDE (Wide Incremental learning with Discrimination nEtworks) wurde versucht einen tieferen Einblick zu gewinnen, wie wir in der Alltagssprache Wörter bilden und verstehen.
Wörter können sich in alltäglichen Unterhaltungen deutlich von der geschriebenen Form unterscheiden: Im Deutschen wird „würden“ häufig als „wün“ ausgesprochen, im Niederländischen „natuurlijk“ (‚natürlich‘) zu „tk“ reduziert, und im chinesischen Mandarin wird 要不然 (jao pu zan, ‚andererseits‘) zu „ui“. Gängigen Theorien zufolge werden die Klangwellen, die unsere Ohren erreichen, zu Abfolgen abstrakter Lauteinheiten reduziert – ähnlich wie die Aneinanderreihung von Buchstaben, die geschriebene Wörter ergeben. Um die Bedeutung einer Äußerung zu erfassen, müssten die stark reduzierten Formen wie „wün“, „tk“ und „ui“ den entsprechenden ungekürzten Formen zugeordnet werden. Wie das als Rechenanleitung im Computer gelingen soll, ist ein bisher ungelöstes Problem.
Dem Projekt WIDE war den radikalen Vorschlag zugrunde gelegt, die buchstabenähnlichen Lauteinheiten ganz beiseite zu lassen und sich stattdessen auf die vielfältigen Details des Sprachsignals selbst zu konzentrieren. Ausgehend von den zehntausenden veränderlichen Merkmalen eines Sprachsignals will man künstliche neurale Netzwerke durch Versuch und Irrtum lernen lassen, welche Bedeutungen jeweils gemeint sind. In früheren Forschungsarbeiten, die von der Alexander von Humboldt-Stiftung gefördert wurden, konnte man bereits belegen, dass diese Vorgehensweise grundsätzlich Erfolge zeitigt. Im WIDE-Projekt wurde dieser Ansatz weiterentwickelt und über das Deutsche hinaus auf andere Sprachen ausgedehnt, darunter die tonale Sprache Mandarin und Estnisch, eine komplexe Sprache mit 28 bis 40 verschiedenen Formen eines Substantivs. Im WIDE-Projekt wollte man auch ein Computermodell zur Formung von Wörtern in der gesprochenen Sprache ohne den Einsatz von buchstabenähnlichen Lauteinheiten entwickeln.
Der Projektname „WIDE“ hebt einen zweiten Aspekt hervor, in dem das Projekt eine radikale Abkehr von gängigen Ansätzen in der Linguistik und bei der Erforschung der Verarbeitung natürlicher Sprache vornahm: Statt tiefe vielschichtige lernende Netzwerke zu verwenden, konzentrierte man sich auf das Potenzial ‚weiter‘, ausgedehnter, aber nur zweischichtiger Netzwerke mit Zehntausenden von Ein- und Ausgangseinheiten.
Mitarbeiter
-
R. Harald Baayen (Professor, Projektleiter)
-
Yu-Ying Chuang (Postdoktorandin)
-
Maja Linke (Doktorandin)
-
Jessie Nixon (Postdoktorandin)
-
Maria Heitmeier (Doktorandin)
-
Tino Sering (Doktorand)
-
Elnaz Shafaei Bajestan (Doktorandin)
-
Kun Sun (Postdoktorand)