Detailseite
Projekt Druckansicht

Praktikables maschinelles Lernen auf statischen und dynamischen 3D Daten.

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2019 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 405799936
 
In den letzten fünf Jahren hat es beeindruckende Fortschritte im Bereich des Deep Learnings gegeben, was es Computern ermöglicht reale Umgebungen mittels visuellen Daten zu verstehen. Dadurch ergeben sich weitreichende neue Möglichkeiten im Bereich der Robotik, der virtuellen Welten, und neuen Anwendungen in der Medizin und der Industrie 4.0. Viele dieser maschinellen Lernverfahren basieren auf Convolutional Neural Networks (CNNs), welche es ermöglichen sehr starke Merkmale von Bilddaten zu lernen oder sogar ganze Bilder aus dem Nichts zu generieren. In 2D Bild-Domänen haben wir daher beindruckende Erfolge sehen können, sowohl für diskriminative als auch für generative Aufgaben.Allerdings sind wir bei 3D Daten noch nicht soweit, obwohl die eine extrem wichtig Rolle spielen; zum Beispiel werden 3D Scans von autonomen Autos generiert um die Umgebung wahrzunehmen. Daher braucht das Verstehen von 3D Daten verstärkte Aufmerksamkeit in der Forschung, da dies die Aufgaben für viele maschinelle Verfahren um erheblich vereinfach; e.g., ein Mensch sieht und versteht die Welt mit zwei Augen (Stereoskopie), oder eben sogar in vier Dimensionen, wenn man die Zeit mitberücksichtigt. Zudem muss man die Blickpunkt-Invarianz nicht mitlernen, da diese im 3D bereits implizit gegeben ist. Der gravierende Nachteil am 3D Lernen ist der damit verbundene Rechenaufwand und Speicherbedarf, was bei aktuellen Methoden immer der Flaschenhals ist.In diesem Antrag fokussieren wir genau auf diese Limitierung indem wir Methoden entwickeln die effizient maschinelles Lernen auf 3D und 4D Daten ermöglicht. Im Speziellen, werden wir deep learning Architekturen und Trainings-verfahren entwickeln die es ermöglichen effizientes Modellieren von verschiedenen Eingabe-Repräsentationen zu ermöglichen; zum Beispiel dünn-besetzte räumliche und zeitliche Repräsentationen auf Voxel Volumen, RGB-D Bildern, Punktewolken, Multi-view Bilddaten, und 3D Modellen. Dafür werden wir neuen Datensätze erstellen passen für diese Szenarien und aufgenommen von realen Daten. Zusätzlich werden wir synthetische Daten genieren mit virtuellem Rendering und augmentierten Bilddaten um die Differenzen zwischen realen und synthetischen Datenstatistiken zu überbrücken. Darüber hinaus werden wir neuartige Neuronale Netze entwickeln welche dafür ausgelegt sind diskriminative und generative Methoden zu verwirklichen welche in dünn-besetzten Domänen anwendbar sind. Um unsere Ergebnisses zu demonstrieren werden wir die entwickelten Lernverfahren auf statische und dynamische 3D Rekonstruktions-Aufgaben anwenden, semantisches Szenenverstehen zeigen (in 3D und 4D) und dabei einen speziellen Fokus auf räumlich und zeitliche Domänen legen.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug Russische Föderation
Partnerorganisation Russian Science Foundation
Kooperationspartner Professor Dr. Evgeny Burnaev
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung