Bedeutungsvergleich im Kontext

Generalisierung von Informationsstruktur und Bezugstext

Motiviert durch die generelle Frage, wie Bedeutungsvergleiche auch in realistischen Situationen erfolgen können, in denen nicht wohlgeformte Sprache oder Unterschiede im situativen Wissen oder Weltwissen eine vollständige Analyse erschweren oder unmöglich machen, untersuchte das Projekt, welche linguistischen Repräsentationen für einen computerlinguistischen Vergleich der Bedeutung von Sätzen und Textfragmenten effektiv und robust zu verwenden sind.

Im Einzelnen untersuchte das Projekt A4 die Rolle des Kontextes bei der Bedeutungskomposition anhand einer authentischen sprachlichen Aufgabe, der Bewertung von Antworten auf Leseverständnisfragen. Das Projekt i) integrierte vielfältige Faktoren des gegebenen Aufgabenkontexts in den Bedeutungsvergleich als Basis der Bewertung der Antwort, ii) erweiterte den Bedeutungsvergleich so, dass er auch spezifische Rückmeldungen für Aufgaben lieferte, die im Transfer Projekt T1 als Teil eines online Workbooks in realen Lernkontexten eingesetzt wurden, und iii) generalisierte die im Projekt entwickelte informationsstrukturelle Analyse so, dass sie in vielfältigen Kontexten anwendbar wurde.


Software und Korpora


Folgende Releases der im Projekt entstandenen Korpora stehen auf Anfrage unter einer CC-BY-NC-SA-Lizenz zur Verfügung (dazugehörige Veröffentlichungen in Klammern):

  • Corpus of Reading Comprehension Exercises in German:
    • CREG-17k (Ott, Ziai, and Meurers, 2012)
    • CREG-1032 (Meurers, Ziai, Ott, and Kopp, 2011)
    • CREG-1006 (Verbesserte Version von CREG-1032)
    • CREG-109 (Ott and Ziai, 2010)
    • CREG-225 (Erweiterung zu CREG-109: Ausgewogene Verteilung korrekter/inkorrekter Antworten, Fragen und Zielantworten beigefügt.)
    • CREG-5K (Größeres, "sauberes" Subkorpus mit restriktiver Datenauswahl und ausgewogener Verteilung korrekter/inkorrekter Antworten.)
    • CREG-23K (Sehr großes Subkorpus mit zwei Bewertungen pro Antwort, jedoch ohne perfektes Agreement und ohne ausgewogener Verteilung korrekter/inkorrekter Antworten)
    • CREG-TUE (3546 Lernerantworten von einer Kontrollgruppe bestehend aus 100 deutschen Muttersprachlern, annotiert von den amerikanischen Projektpartnern)
  • Corpus of Reading Comprehension Exercises in English:
    • CREE (Meurers, Ziai, Ott, and Bailey 2011; Bailey 2008)

Weitere CREG Korpus Ressourcen wurden durch das CoALLa Projekt erstellt:

  • Condensed Context CREG-5k: Diese xml-Version des CREG-5k-Korpus enthält den kondensierten Kontext des CREG-5k-Korpus, d.h. die Frage, die Zielantworten, die richtigen Schülerantworten sowie den kurzen und langen Lesekontext, der aus den Leseverständnistexten extrahiert wurde.

  •  CREG-MeanT: Dieses Korpus enthält 2574 kommentierte Studentenantworten aus REG-5k mit Form-Meaning-Target-Hypothese-Annotationen für die Studentenantworten von zwei Annotatoren. Das Annotationsmanual findet sich auf der CoALLa Projekt Seite, sowie der Artikel mit einer Diskussion des Annotationsexperiments (Boyd, 2018a).

Falls Sie diese Korpora ebenfalls nutzen möchten, schreiben Sie bitte einfach eine E-Mail an a4@sfs.uni-t[...]en.de.

Des Weiteren stehen folgende Ressourcen zum direkten Download bereit:

  • DepLeSdeWaC, eine dependenz-geparste Version des sDeWaC mit automatisch annotierten Lemmas und automatisch annotierter Morphologie.