Detailseite
RECOLAGE: Kollaborative Sprachgenerierung in Echtzeit und aus visuellem Input
Antragsteller
Professor Dr. David Schlangen
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung von 2019 bis 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 423217434
Sprachdialogsysteme wie sie momentan im Einsatz sind, greifen meist auf einfache vorgefertigte Satzmuster zurück, wenn verbale Äußerungen produziert werden müssen. Verfahren der datengetriebenen Sprachgenerierung, die nicht-sprachlichen (z.B. visuellen) Input flexibel und variabel auf verbale Äußerungen abbilden, bieten zwar theoretisch die Möglichkeit, Interaktionen zwischen Mensch und Maschine flüssiger und natürlicher zu gestalten, sie sind bisher aber fast ausschließlich auf Textgenerierung ausgerichtet und kaum auf interaktive Systeme übertragbar. Auch neueste Verfahren der Sprachgenierung mit z.B. neuronalen Netzen gehen davon aus, dass der Generierungsprozess autonom modelliert werden kann, und damit entkoppelt ist vom Interaktionspartner und dem dynamischen (visuellen) Kontext. Diese Annahme resultiert in einer sequentiellen Verarbeitungsstrategie, die besonders problematisch für gesprochene, task-orientierte Interaktion in visuellen Kontexten ist. Hier erwarten menschliche Interaktionspartner, dass sich der Sprecher, auch während er spricht, kollaborativ verhält, auf gleichzeitige Geschehnisse reagiert, und seine Äußerungen dementsprechend anpasst, zum Beispiel elaboriert oder korrigiert. Das zentrale Ziel von RECOLAGE ist die Entwicklung eines datengetriebenen Ansatzes für Sprachgenerierung, der eine enge Verknüpfung von verbalen Äußerungen des Systems und nicht-verbalen Reaktionen des Interaktionspartners erlaubt. Dabei soll ein Modell für visuelles Grounding entwickelt werden, das es ermöglicht, Äußerungen in Echtzeit und auf kollaborative Weise zu produzieren. Die Implementierung eines solchen kollaborativen Sprachgenerierungsansatzes verlangt die Koordination und Verschränkung on Aufgaben, die traditionellerweise sequentiell bearbeitet wurden, nämlich die Vorhersage von Systemhandlungen (action management, AM), Sprachgenerierung (natural language generation, NLG), sowie Sprachsynthese (speech synthesis, SYN). RECOLAGE wird AM modellieren als ein kontinuierlichen Entscheidungsprozess, der Aufgaben für NLG und SYN zeitlich plant. Diese wiederum behalten Autonomie über ihre jeweiligen linguistischen Entscheidungen (welche Worte gesprochen werden sollen, und wann), werden aber angepasst an die Generierung kleinerer Einheiten, sensitiv zu ihrem unmittelbaren gegenseitigen Kontext. Auf die substantiellen Vorarbeiten der Antragsteller aufbauend wird das Projekt einem datengetriebenen Ansatz folgen, bei dem linguistische Entscheidungen durch Techniken des maschinellen Lernens optimiert werden.
DFG-Verfahren
Sachbeihilfen