Seminar für Sprachwissenschaft

Folgende Projekte sind gerade in der Arbeitsgruppe der Quantiativen Linguistik angesiedelt und werden von uns bearbeitet. Eine inhaltliche Darstellung der momentan bearbeiteten Forschungsideen findet sich in englischer Sprache auf Harald Baayens Homepage. Die  Projekte, die in der Vergangenheit von der Arbeitsgruppe bearbeitet wurden, aber momentan nicht finanziert sind, können unter Abgeschlossene Projekte nachgelesen werden.

DFG-Cwic

Complex words in context

Projektleiter: R. Harald Baayen (Professor für Quantitative Linguistik)  

Website

Details zu DFG-Cwic

Projekt Cwic: Komplexe Wörter im Kontext

Projekt DFG-Cwic

Recent years have seen impressive advances in the fields of natural language processing (NLP) and artificial intelligence (AI). State-of-the-art language technologies have been made possible by advances in machine learning utilising many-layered 'deep' learning artificial neural networks. However, understanding what deep learning networks detect in language use, and what probabilistic information they exploit to generate predictions for computational language tasks, often remains unclear (but see Linzen & Baroni, 2021, for recent advances). For engineering purposes, this is not a problem, but for understanding language and the cognition of language processing, this state of affairs is highly unsatisfactory. The discriminative lexicon model (DLM) (Baayen, R. H. et al., 2019; Chuang & Baayen, R. H., 2021) is an attempt to combine the strengths of the mathematics of error-driven learning with the new possibilities offered by word embeddings for the computational modeling of the mental lexicon and lexical processing. Word embeddings, which we will also refer to as 'semantic vectors', represent word meanings as points in a high-dimensional space calculated from word usage in large text corpora.

Mitarbeiter

  • R. Harald Baayen (Projektleiter)
  • Konstantin Sering (Postdoktorand)

ERC-SUBLIMINAL

Subliminal learning in the Mandarin lexicon

Projektleiter: R. Harald Baayen (Professor für Quantitative Linguistik)  

Website

 

Details zu ERC-SUBLIMINAL

Vorhaben

Im Mittelpunkt dieses Forschungsprojekts steht die Beobachtung, dass es in der gesprochenen Sprache subtile Regelmäßigkeiten gibt, die sich unserem Bewusstsein entziehen, die aber eine wichtige Rolle beim Spracherwerb und Sprachgebrauch spielen.

Philosophen wie Immanuel Kant, Edmund Husserl und Maurice Merleau-Ponty sowie der Kognitionswissenschaftler Donald Hoffman gehen davon aus, dass unsere Wahrnehmung der Realität durch unseren Geist und Körper geformt und gefiltert wird. Gemäß der in diesem Projekt umschriebenen Auffassung gilt dies auch für unsere Sprachwahrnehmung, die durch unsere Schriftsysteme gefiltert wird. Abweichungen zwischen Schreibkonventionen und gesprochener Alltagssprache sind für Muttersprachler in der Regel unproblematisch. So kommen englische Muttersprachler beispielsweise damit zurecht, wenn in einer Konversation das Wort „probably“ (deutsch: „wahrscheinlich“) als „prolly“ ausgesprochen wird. Beim Erlernen einer neuen Sprache jedoch könnten solche Diskrepanzen den Zweitspracherwerb unnötig erschweren, laut diesem Projekt.

Das Forschungsprojekt befasst sich mit dem Erlernen von Mandarin-Chinesisch, einer Sprache, in der unterschiedliche Wörter aus denselben Klängen bestehen können, aber je nach Bedeutung in verschiedenen Tonmelodien ausgesprochen werden. Im Rahmen dieses Forschungsprojekts wird im Detail untersucht, wie Mandarin-Sprecher Wörter tatsächlich aussprechen, mit Fokus darauf, wie sie Tonmelodien einsetzen. Er wird zudem erforschen, wie das einzigartige Schriftsystem des Chinesischen mehrere Bedeutungsebenen erzeugt. Mit Hilfe modernster Methoden der Computermodellierung, der Verteilungssemantik und der statistischen Analyse, wird er untersuchen, wie Form und Bedeutung zusammenpassen, und die Ergebnisse nutzen, um die Methoden des Vokabellernens für Mandarin-Chinesisch als Zweitsprache zu verbessern.

Publikationen

Tseng, Y.-H., Chen, P.-E., Lian, D.-C., and Hsieh, S.-K. (2024). The Semantic Relations in LLMs: An Information-theoretic Compression Approach. In Dong, T., Hinrichs, E., Han, Z., Liu, K., Song, Y., Cao, Y., Hempelmann, C. F., Sifa, R. (Eds.), Proceedings of the Workshop: Bridging Neurons and Symbols for Natural Language Processing and Knowledge Graphs Reasoning (NeusymBridge) @ LREC-COLING-2024, Italy, 8-21. Torino, Italy: ELRA and ICCL.

Chuang, Y.-Y., Baayen, R. H., and Bell, M. (2023). Do words sing their own tunes? Word-specific pitch realizations in Mandarin and English. In Skarnitzl , R., and Volín, J. (Eds.), Proceedings of the 20th International Congress of Phonetic Sciences, Czech Republic, 1603-1607. Prague, Czech Republic: Guarant International.

Präsentationen

Tseng, Y.-H., Chen, P.-E., Lian, D.-C., and Hsieh, S.-K., The Semantic Relations in LLMs: An Information-theoretic Compression Approach, Workshop: Bridging Neurons and Symbols for Natural Language Processing and Knowledge Graphs Reasoning (NeusymBridge), Torino, Italy, May 21, 2024.

Baayen, R. H., Modeling Mandarin tones on two-word compounds, Colloquium English Language and Linguistics, Düsseldorf, Germany, January 19, 2024.

Baayen, R. H., Frequency-Informed Learning, Colloquium Out of Our Minds, Birmingham, United Kingdom, October 11, 2023.

Yang, Y., Measure words in Mandarin, 2nd Joint Workshop on Chinese Lexical Semantic Change, 2nd Joint Workshop on Chinese Lexical Semantic Change, Tübingen, Germany, September 6, 2023

Tseng, Y.-H., Lian, D.-C., and Watty, D., Modeling diachronic semantic change of (Pre-Modern) Mandarin Chinese with contextualized embeddings & Word2Vec, 2nd Joint Workshop on Chinese Lexical Semantic Change, Tübingen, Germany, September 6, 2023

Yang, Y., and Baayen, R. H., Exploring semantic organization across mental lexicons: Perception verbs in Mandarin and English, International Cognitive Linguistics Conference (ICLC16), Düsseldorf, Germany, August 8, 2023 (poster presentation).

Chuang, Y.-Y., Baayen, R. H., and Bell, M., Do words sing their own tunes? Word-specific pitch realizations in Mandarin and English, 20th International Congress of Phonetic Sciences (ICPhS), Prague, Czech Republic, August 7, 2023 (poster presentation).

Mitarbeiter

  • R. Harald Baayen (Professor, Projektleiter)

  • Xiaoyun Jin (Doktorandin)

  • Zhexuan Li (Wissenschaftliche Hilfskraft)

  • Yuxin Lu (Doktorandin)

  • Motoki Saito (Postdoktorand)

  • Yu-Hsiang Tseng (Postdoktorand)

  • Yi Yang (Postdoktorandin)

Ehemalige MitarbeiterInnen

  • Yu-Ying Chuang (Postdoktorandin)

  • Kun Sun (Postdoktorand)

  • Weiting Wang (Wissenschaftliche Hilfskraft)

  • Kai-Hui Yang (Wissenschaftliche Hilfskraft)

  • Runzhi Zhang (Wissenschaftliche Hilfskraft)

DFG-EML

Machinelles Lernen für die Wissenschaft

Exzellenzcluster - Machinelles Lernen für die Wissenschaft (Cluster Sprecher: Philipp Berens, Cluster Sprecherin: Ulrike von Luxburg)

Website

Details zu DFG-EML

Innovation Fund Projekt 1 in Forschungsbereich A - Verstehen jenseits einfacher Vorhersagen

Im Forschungsbereich A arbeiten wir an Algorithmen, die koplexe Strukturen und kausale Zusammenhänge in Daten erkennen, um maschinelles Lernen besser in den wissenschaftlichen Erkenntnisprozess zu integrieren. In  Projekt 1 untersuchen wir "Enhancing Machine Learning of Lexical Semantics with Image Mining".

Mitarbeiter

  • Hendrik Lensch (Projektleiter)
  • R. Harald Baayen (Projektleiter)
  • Zohreh Ghaderi (Doktorandin)
  • Hassan Shahmohammadi (Doktorand)