Folgende Projekte sind gerade in der Arbeitsgruppe der Quantiativen Linguistik angesiedelt und werden von uns bearbeitet. Eine inhaltliche Darstellung der momentan bearbeiteten Forschungsideen findet sich in englischer Sprache auf Harald Baayens Homepage. Die Projekte, die in der Vergangenheit von der Arbeitsgruppe bearbeitet wurden, aber momentan nicht finanziert sind, können unter Abgeschlossene Projekte nachgelesen werden.
Projektleiter: R. Harald Baayen (Professor für Quantitative Linguistik)
Recent years have seen impressive advances in the fields of natural language processing (NLP) and artificial intelligence (AI). State-of-the-art language technologies have been made possible by advances in machine learning utilising many-layered 'deep' learning artificial neural networks. However, understanding what deep learning networks detect in language use, and what probabilistic information they exploit to generate predictions for computational language tasks, often remains unclear (but see Linzen & Baroni, 2021, for recent advances). For engineering purposes, this is not a problem, but for understanding language and the cognition of language processing, this state of affairs is highly unsatisfactory. The discriminative lexicon model (DLM) (Baayen, R. H. et al., 2019; Chuang & Baayen, R. H., 2021) is an attempt to combine the strengths of the mathematics of error-driven learning with the new possibilities offered by word embeddings for the computational modeling of the mental lexicon and lexical processing. Word embeddings, which we will also refer to as 'semantic vectors', represent word meanings as points in a high-dimensional space calculated from word usage in large text corpora.
Projektleiter: R. Harald Baayen (Professor für Quantitative Linguistik)
Im Mittelpunkt dieses Forschungsprojekts steht die Beobachtung, dass es in der gesprochenen Sprache subtile Regelmäßigkeiten gibt, die sich unserem Bewusstsein entziehen, die aber eine wichtige Rolle beim Spracherwerb und Sprachgebrauch spielen.
Philosophen wie Immanuel Kant, Edmund Husserl und Maurice Merleau-Ponty sowie der Kognitionswissenschaftler Donald Hoffman gehen davon aus, dass unsere Wahrnehmung der Realität durch unseren Geist und Körper geformt und gefiltert wird. Gemäß der in diesem Projekt umschriebenen Auffassung gilt dies auch für unsere Sprachwahrnehmung, die durch unsere Schriftsysteme gefiltert wird. Abweichungen zwischen Schreibkonventionen und gesprochener Alltagssprache sind für Muttersprachler in der Regel unproblematisch. So kommen englische Muttersprachler beispielsweise damit zurecht, wenn in einer Konversation das Wort „probably“ (deutsch: „wahrscheinlich“) als „prolly“ ausgesprochen wird. Beim Erlernen einer neuen Sprache jedoch könnten solche Diskrepanzen den Zweitspracherwerb unnötig erschweren, laut diesem Projekt.
Das Forschungsprojekt befasst sich mit dem Erlernen von Mandarin-Chinesisch, einer Sprache, in der unterschiedliche Wörter aus denselben Klängen bestehen können, aber je nach Bedeutung in verschiedenen Tonmelodien ausgesprochen werden. Im Rahmen dieses Forschungsprojekts wird im Detail untersucht, wie Mandarin-Sprecher Wörter tatsächlich aussprechen, mit Fokus darauf, wie sie Tonmelodien einsetzen. Er wird zudem erforschen, wie das einzigartige Schriftsystem des Chinesischen mehrere Bedeutungsebenen erzeugt. Mit Hilfe modernster Methoden der Computermodellierung, der Verteilungssemantik und der statistischen Analyse, wird er untersuchen, wie Form und Bedeutung zusammenpassen, und die Ergebnisse nutzen, um die Methoden des Vokabellernens für Mandarin-Chinesisch als Zweitsprache zu verbessern.
Tseng, Y.-H., Chen, P.-E., Lian, D.-C., and Hsieh, S.-K. (2024). The Semantic Relations in LLMs: An Information-theoretic Compression Approach. In Dong, T., Hinrichs, E., Han, Z., Liu, K., Song, Y., Cao, Y., Hempelmann, C. F., Sifa, R. (Eds.), Proceedings of the Workshop: Bridging Neurons and Symbols for Natural Language Processing and Knowledge Graphs Reasoning (NeusymBridge) @ LREC-COLING-2024, Italy, 8-21. Torino, Italy: ELRA and ICCL.
Chuang, Y.-Y., Baayen, R. H., and Bell, M. (2023). Do words sing their own tunes? Word-specific pitch realizations in Mandarin and English. In Skarnitzl , R., and Volín, J. (Eds.), Proceedings of the 20th International Congress of Phonetic Sciences, Czech Republic, 1603-1607. Prague, Czech Republic: Guarant International.
Tseng, Y. H. and Baayen, R. H., Investigating forgetting curves with learning rule-derived interferences, The 31st Annual ACT-R Workshop, Tilburg, the Netherlands, July 23, 2024.
Baayen, R. H., and Heitmeier, M., Linear Discriminative Learning, Workshop at the International Word Processing Conference (WoProc 2024), Belgrade, Serbia, July 6, 2024.
Chuang, Y.-Y., Bell, M. J., Tseng, Y.-H., and Baayen, R. H., Word-specific tonal realizations in Mandarin. International Word Processing Conference (WoProc 2024), Belgrade, Serbia, July 5, 2024.
Tseng, Y.-H., Chen, P.-E., Lian, D.-C., and Hsieh, S.-K., The Semantic Relations in LLMs: An Information-theoretic Compression Approach, Workshop: Bridging Neurons and Symbols for Natural Language Processing and Knowledge Graphs Reasoning (NeusymBridge), Torino, Italy, May 21, 2024.
Baayen, R. H., Modeling Mandarin tones on two-word compounds, Colloquium English Language and Linguistics, Düsseldorf, Germany, January 19, 2024.
Baayen, R. H., Frequency-Informed Learning, Colloquium Out of Our Minds, Birmingham, United Kingdom, October 11, 2023.
Yang, Y., Measure words in Mandarin, 2nd Joint Workshop on Chinese Lexical Semantic Change, 2nd Joint Workshop on Chinese Lexical Semantic Change, Tübingen, Germany, September 6, 2023
Tseng, Y.-H., Lian, D.-C., and Watty, D., Modeling diachronic semantic change of (Pre-Modern) Mandarin Chinese with contextualized embeddings & Word2Vec, 2nd Joint Workshop on Chinese Lexical Semantic Change, Tübingen, Germany, September 6, 2023
Yang, Y., and Baayen, R. H., Exploring semantic organization across mental lexicons: Perception verbs in Mandarin and English, International Cognitive Linguistics Conference (ICLC16), Düsseldorf, Germany, August 8, 2023 (poster presentation).
Chuang, Y.-Y., Baayen, R. H., and Bell, M., Do words sing their own tunes? Word-specific pitch realizations in Mandarin and English, 20th International Congress of Phonetic Sciences (ICPhS), Prague, Czech Republic, August 7, 2023 (poster presentation).
R. Harald Baayen (Professor, Projektleiter)
Xiaoyun Jin (Doktorandin)
Yuxin Lu (Doktorandin)
Maziyah Mohamed (Postdoktorandin)
Motoki Saito (Postdoktorand)
Yu-Hsiang Tseng (Postdoktorand)
Yi Yang (Post-Doktorandin)
Yu-Ying Chuang (Postdoktorandin)
Kun Sun (Postdoktorand)
Auf unserer Webseite werden Cookies verwendet. Einige davon werden zwingend benötigt, während es uns andere ermöglichen, Ihre Nutzererfahrung auf unserer Webseite zu verbessern. Ihre getroffenen Einstellungen können jederzeit bearbeitet werden.
oder
Essentiell
in2cookiemodal-selection
Erforderlich, um die Benutzerauswahl der Cookie-Einstellungen zu speichern.
3 Monate
be_lastLoginProvider
Benötigt, damit TYPO3 beim Backend-Login den Zeitpunkt des letzten Logins feststellen kann.
3 Monate
be_typo_user
Dieses Cookie teilt der Webseite mit, ob ein Besucher oder eine Besucherin zugleich im TYPO3-Backend angemeldet ist und die Rechte besitzt, die Webseite zu verwalten.
Sitzungsende
ROUTEID
Diese Cookies werden gesetzt, um den Benutzer oder die Benutzerin immer zum gleichen Server zu leiten.
Sitzungsende
fe_typo_user
Ermöglicht Frontend-Login.
Sitzungsende
Videos
iframeswitch
Wird verwendet, um eingebettete externe Inhalte Dritter anzuzeigen.
3 Monate
yt-player-bandaid-host
Wird verwendet, um YouTube-Videos anzuzeigen.
Beständig
yt-player-bandwidth
Wird verwendet, um die optimale Videoqualität basierend auf den Geräte- und Netzwerkeinstellungen des Besuchers oder der Besucherin zu bestimmen.
Beständig
yt-remote-connected-devices
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Beständig
yt-remote-device-id
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Beständig
yt-player-headers-readable
Sammelt Daten über die Interaktion der Besucher mit den Videoinhalten der Website - Diese Daten werden verwendet, um die Relevanz der Videoinhalte der Website für den Besucher zu erhöhen.
Beständig
yt-player-volume
Wird verwendet, um die bevorzugte Lautstärke der YouTube-Videos zu speichern.
Beständig
yt-player-quality
Wird verwendet, um die bevorzugte YouTube Wiedergabequalität zu speichern.
Beständig
yt-remote-session-name
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-session-app
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-fast-check-period
Speichert die Einstellungen des Videoplayers des Benutzers oder der Benutzerin unter Verwendung von eingebettetem YouTube-Video.
Sitzungsende
yt-remote-cast-installed
Speichert die Benutzereinstellungen beim Abruf eines auf anderen Webseiten integrierten YouTube-Videos.
Sitzungsende
yt-remote-cast-available
Speichert die Benutzereinstellungen beim Abruf von integrierten YouTube-Videos.
Sitzungsende
ANID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
2 Jahre
SNID
Google Maps - Google verwendet diese Cookies, um Benutzereinstellungen und Informationen zu speichern, wenn Sie Seiten mit Google Maps aufrufen.
1 Monat
SSID
Wird verwendet, um Informationen darüber zu speichern, wie Sie die Website nutzen und welche Werbung Sie vor dem Besuch dieser Website gesehen haben, und um die Werbung auf Google-Ressourcen anzupassen, indem Sie sich an Ihre letzten Suchanfragen, Ihre früheren Interaktionen mit Anzeigen oder Suchergebnissen eines Werbetreibenden und Ihre Besuche auf einer Website eines Werbetreibenden erinnern.
6 Monate
1P_JAR
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
1 Monat
SAPISID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
6 Monate
APISID
Wird für Targetingzwecke verwendet, um ein Profil der Interessen der Website-Besucher zu erstellen, um relevante und personalisierte Google-Werbung anzuzeigen.
6 Monate
HSID
Beinhaltet verschlüsselte Einträge Ihres Google Accounts und der letzten Login-Zeit um vor Attacken und Datendiebstahl aus Formulareinträgen zu schützen.
2 Jahre
SID
Wird zu Sicherheitszwecken verwendet, um digital signierte und verschlüsselte Aufzeichnungen der Google-Konto-ID eines Nutzers und der letzten Anmeldezeit zu speichern, die es Google ermöglichen, Nutzer zu authentifizieren, eine betrügerische Verwendung von Anmeldeinformationen zu verhindern und Benutzerdaten vor Unbefugten zu schützen. Dies kann auch für Targetingzwecke genutzt werden, um relevante und personalisierte Werbeinhalte anzuzeigen.
6 Monate
SIDCC
Dieses Cookie speichert Informationen über Nutzereinstellungen und -informationen für Google Maps.
3 Monate
NID
Das NID-Cookie enthält eine eindeutige ID, die Google verwendet, um Ihre Einstellungen und andere Informationen zu speichern.
6 Monate
CONSENT
Dieses Cookie verfolgt, wie Sie eine Website nutzen, um Ihnen Werbung zu zeigen, die für Sie interessant sein könnte.
18 Jahre
__Secure-3PAPISID
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
2 Jahre
__Secure-3PSID
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen
2 Jahre
__Secure-3PSIDCC
Dieses Cookie wird verwendet, um die Werbedienste von Google zu unterstützen.
6 Monate