Uni-Tübingen

A3

Korpusbasierte semantische Kompositionsmodelle für Phrasen

Das A3-Projekt befasste sich mit Modellen der semantischen Komposition von deutschen und englischen Phrasen. Dabei lag der Fokus auf Adjektiv-Nomen-Phrasen und Präpositionalphrasen. Für die computerlinguistische Modellierung wurden distributionelle Wortrepräsentationen und sog. Deep Learning Methoden, im Speziellen rekurrente neuronale Netze (RNN), verwendet.

Die Beziehung zwischen Komposition und Parsing war hier von besonderem Interesse. Bestehende Kompositionsmodelle, die in Parser integriert wurden, werden normalerweise zusammen mit dem Parser durch überwachtes Lernen trainiert. Bei den Trainingsdaten handelt es sich meist um Daten aus Baumbanken. Im Gegensatz dazu wurden in unserem Ansatz Kompositionsmodelle durch unüberwachtes Lernen mit großen geparsten Korpora trainiert. Die semantische Darstellung der Phrasen, die durch diese vortrainierten Kompositionsmodelle erstellt wurden, konnten anschließend in einen Parser eingebaut werden, um dessen Genauigkeit beim Parsen zu verbessern.

Bewertet wurden die Kompositionsmodelle anhand verschiedener Aufgaben, unter anderem durch die Klassifizierung semantischer Relationen, die Desambiguierung von PP-Bindungen, das Erkennen textueller Folgebeziehungen und der Text-Bild-Abruf.


Publikationen