Detailseite
Raum-zeitliche Multiskalenmerkmale zur Segmentierung und Klassifikation von Objektinstanzen in Videos
Antragsteller
Professor Dr.-Ing. Thomas Brox
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2017 bis 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 387723725
Videosegmentierung gehört zu den schwierigen Aufgaben in Computer Vision. Aktuelle Verfahren erreichen außerhalb spezialisierter Umgebungen bei weitem noch nicht die menschliche Fertigkeiten. Um den Stand der Kunst zu erweitern, wird das beantragte Forschungsprojekt die Zusammenhänge zwischen Videosegmentierung und Objekterkennung untersuchen und gelernte, klassenspezifische Information in die Videosegmentierung integrieren. Dazu wird zunächst ein führender Segmentierungsansatz für statische Bilder mithilfe von optischem Fluss auf Videos erweitert. Sowohl der Segmentierungsansatz (Convolutional Oriented Boundaries) als auch die Schätzung des optischen Flusses (FlowNet) basieren dabei auf tiefen Netzen. Ziel ist die Nutzung von lokaler, räumlicher Information unter Berücksichtigung zeitlicher Konsistenz und wird eine raum-zeitliche Übersegmentierung generieren. Klassenlabels in den Bildern sollen dann über die Zeit propagiert werden um raum-zeitliche Repräsentationen von Objekten und Oberflächen zu erstellen. Im zweiten Jahr soll in ähnlicher Form ein mehrskaliger Merkmalsansatz (Hypercolumns) auf raum-zeitlicheMerkmale erweitert werden und damit die räumliche Lokalisierung von Objekten unter Beibehaltung zeitlicher Konsistenz verfeinert werden. Das Ziel ist eine Merkmalsrepräsentation von Objekten, die über die Zeit stabil ist und Information über die Objektklassen enthält. Wir erwarten durch die Verknüpfung von Videosegmentierung und semantischer Inhalte deutliche Verbesserungen, die sich auf Videosegmentierungsbenchmarks messen lassen. Davon sollten auch die zahlreichen Anwendungsbereiche von Videosegmentierung, wie etwa semantische 3D Rekonstruktion, Videoverstehen, Aktivitätserkennung und Objekterkennung, profitieren. Durch die Zusammenarbeit von Forschern beider Länder, möchte das Projekt zudem den wissenschaftlichen Austausch zwischen Deutschland und Kolumbien stärken.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Kolumbien
Partnerorganisation
Universidad de los Andes
Kooperationspartner
Professor Pablo Andres Arbelaez Escalante, Ph.D.