Detailseite
Lebenslanges multimodales Sprachenlernen durch Erklärung und Nutzung von kompositorischem Wissen
Antragsteller
Dr. Jae Hee Lee; Professor Dr. Stefan Wermter
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 551629603
Das Erlernen und Verwenden von Sprache zum Verstehen, Konzeptualisieren und Kommunizieren ist eine besondere Fähigkeit des Menschen. Dies hat die Entwicklung von multimodalen Deep-Learning-Modellen motiviert, die wie Menschen lernen und denken. Bestehende multimodale Modelle haben jedoch Probleme beim lebenslangen Lernen, wenn sie mit wechselnden Aufgaben konfrontiert werden und gleichzeitig das zuvor gelernte Wissen behalten müssen. Dies wird als ein großes Hindernis für ihre Anwendung in realen Szenarien angesehen. Das Ziel des vorgeschlagenen Projekts LUMO ist es, die wichtige, aber herausfordernde Forschungsfrage zu erforschen, wie multimodale Modelle robust gegenüber Aufgabenänderungen (oder Verteilungsverschiebungen) gemacht werden können, indem kompositorisches Wissen erklärt und genutzt wird. Bei der Entwicklung solcher Lebenslang Lernenden Multimodalen Modelle (LLMMs) besteht unser erstes Ziel darin, Datensätze und Umgebungen für zwei repräsentative multimodale Sprachlernaufgaben zu entwickeln, d. h. für die Integration von Vision und Sprache sowie die sprachgesteuerte robotische Manipulation. Dabei liegt unser Schwerpunkt auf Konzepten, Relationen und Aktionen, die bei wechselnden Aufgaben auf neuartige Weise kombiniert werden können. Unser zweites Ziel ist es zu verstehen, warum bestimmte Ansätze zu robusteren LLMMs führen. Dazu werden wir untersuchen, wie Konzepte und Relationen innerhalb eines LLMM mit konzeptbasierten XAI-Methoden entstehen. Außerdem wollen wir die Trainingsdynamik bei der Bildung von Konzepten und Relationen in einem LLMM verstehen, um einerseits die kompositorische Generalisierung und andererseits das katastrophale Vergessen zu ergründen. Unser drittes Ziel ist die Entwicklung eines neurosymbolischen Ansatzes, der eng in das Modell integriert ist und dessen Leistung beim lebenslangen Lernen verbessert. Wir stellen fest, dass die interne Interpretierbarkeit uns nicht nur hilft, den Grund für die Robustheit eines Ansatzes zu verstehen, sondern auch das Potenzial hat, falsche Korrelationen in einem LLMM zu erkennen. Wir stellen die Hypothese auf, dass die Merkmale eines Konzepts eine Region im Einbettungsraum definieren, so dass man symbolische Constraints unter Verwendung der Vektorraumsemantik auf diese Regionen anwenden kann, um die Robustheit eines LLMMs zu verbessern. Wir werden die aus der Forschung gewonnenen Erkenntnisse für echte sparchgesteuerte robotische Manipulationsszenarien untersuchen, wobei wir einen sim2real-Transfer anstreben, d. h. die Übertragung von Fähigkeiten aus der Simulation in die reale Welt.
DFG-Verfahren
Sachbeihilfen