Detailseite
Semantische Videovorhersage (P6)
Antragsteller
Professor Dr. Sven Behnke
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2017
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 313421352
Die Vorhersage zukünftiger Messungen ist eine Schlüsselfähigkeit intelligenter Systeme. Sie kann auf selbstüberwachte Weise gelernt werden, muss aber geeignete Szenenrepräsentationen entdecken um erfolgreich zu sein. Effektive Mensch-Roboter-Zusammenarbeit benötigt ein System um die menschlichen Aktionen wahrzunehmen und zukünftige Zustände des gemeinsamen Arbeitsraums vorherzusagen. Ziel dieses Projekts ist eine Folge von Repräsentationen des gemeinsamen Arbeitsraums von Mensch und Roboter zu lernen, die immer abstrakter werden und Vorhersagen für immer längere Zeithorizonte erlauben. Da Bewegungssegmentierung bessere Vorhersagen erlaubt, soll das Framework für unüberwachtes Lernen hierarchischer Repräsentationen, das im Projekt "Lernen Hierarchischer Repräsentationen für Antizipative Mensch-Roboter-Kollaboration" der ersten Phase der Forschergruppe entwickelt wurde, erweitert werden, um die Segmentierung der Szene in einzelne Objekte und Personen zu adressieren. Zu diesem Zweck soll eine Netzwerkarchitektur entwickelt werden, welche Szenen als sich kohärent bewegende Segmente modelliert, die sich gegenseitig verdecken. Da die Zukunft häufig mehrere plausible Verläufe hat, soll das Vorhersagesystem erweitert werden, um explizit multimodale Verteilungen zukünftiger Zustände zu berücksichtigen. Zu diesem Zweck sollen semantisch bedeutungstragende latente Variablen erlernt werden, auf welche die multimodale Zukunft konditioniert wird ‒ ohne dass explizite Annotationen erforderlich sind. Um die Repräsentationen auf die Aufgabe der Mensch-Roboter-Zusammenarbeit auszurichten, sollen diese überwacht für semantische Wahrnehmung und semantische Vorhersage multimodaler Zukünfte trainiert werden. Entsprechend den raumzeitlichen Auflösungen sollen in den höheren Ebenen abstraktere semantische Konzepte, wie größere Objekte und längerfristige Aktivitäten, mit längerem Vorhersagehorizont produziert werden. Die erlernten Szenenmodelle und Vorhersagen bilden die Basis für die Arbeit in Projekt P8 "Antizipative Mensch-Roboter-Kollaboration".
DFG-Verfahren
Forschungsgruppen
Teilprojekt zu
FOR 2535:
Anticipating Human Behavior