Detailseite
Projekt Druckansicht

Roboter lernen zu erkennen, zu planen und zu handeln unter Ungewissheit

Antragsteller Professor Jan Reinhard Peters, Ph.D., seit 11/2019
Fachliche Zuordnung Automatisierungstechnik, Mechatronik, Regelungssysteme, Intelligente Technische Systeme, Robotik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2018 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 398611747
 
Zukünftige Roboter müssen in der Lage sein, ihre Aktionen so zu planen, dass sie über die Umwelt lernen können, um ihre Aufgaben zu erledigen. Diese Art von Planung ist besonders wichtig in unstrukturierten teilweise beobachtbaren realen Weltumgebungen, wie zum Beispiel in Haushalt Robotik, adaptive Fertigung, Altenpflege, Handhabung gefährlicher Materialien oder sogar in Katastrophenszenarien wie Fukujima. In solchen Anwendungen muss sich der Roboter auf mehrere Modalitäten verlassen: Kamerabilder, Laser-Entfernungsmesser oder sogar taktile und akustische Rückmeldung. Sogar mit perfekten visuellen Sensoren kann der Roboter nicht durch Okklusionen sehen. Roboter, die in solchen Umgebungen arbeiten können und Interaktiv die Welt wahrnehmen, brauchen maschinelles Verstärkungslernen, die Ungewissheit in der Entscheidungsprozesse beinhaltet, um proaktiv Informationen zu sammeln. So muss der Roboter auch ein grundlegendes Verständnis der Physischen Welt finden und diese Information in ihre Argumentation übernehmen. Dieses Projekt zielt darauf ab, modellfreies Verstärkungslernen in teilweise beobachtbaren Roboteraufgaben durch folgende Innovationen eine Realität zu machen: (i) Wir werden neue probabilistische strukturierte Gedächtnisdarstellungen untersuchen, die uns ermöglichen, Erfahrungen effizient wiederzuverwenden mit verschiedenen Arten von Strategien. (ii) Strategielernen unter teilweise Beobachtbarkeit erfordert Informationsbeschaffungsmaßnahmen, welche eine Ausbreitung von Werten über lange Horizonte erfordert, und Exploration, um diese Werte aufzudecken. Um eine langfristige Aktionsauswahl zu ermöglichen, werden wir Ideen von modellbasierten Methoden für effiziente Exploration und Wertausbreitung nutzen. (iii) In teilweise beobachtbaren Einstellungen wird der Wert-Zuweisungsproblem verstärkt. Wir werden geführtes maschinelles Verstärkungslernen folgen: Für Verstärkungslernen verwenden wir zusätzliche Seiteninformationen im Offline-Modus, aber nur lokale sensorische Informationen im Online-Modus. Wir werden diese methodischen Fortschritte durch einen Roboter der Mikado spielen lernt bewerten. Mikado ist eine schwierige Robotermanipulationsproblem, das alle oben beschriebene Schwierigkeiten verbunden mit partieller Beobachtbarkeit aufweist. Der Roboter muss mit Okklusionen und Teilinformationen umgehen können. Es muss proaktiv physikalische Eigenschaften testen und welche Kontakte für bestimmte Stöcke aktiv sind und dieses Wissen in seine Feinmanipulationsfähigkeiten integrieren um Stöcke aus dem Haufen zu entfernen.
DFG-Verfahren Sachbeihilfen
Ehemaliger Antragsteller Dr. Joni Pajarinen, bis 11/2019
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung