Verknüpfung von 3D-Formenwissen und Lageschätzung mit Bildsegmentierung
Final Report Abstract
Als generelle Zielstellung des Vorhabens wurde von den Antragstellern die Verfolgung bekannter Objekte im Bild auf der Basis einer qualifizierbaren Bildsegmentierung und der Bestimmung ihrer Position und Orientierung im Raum genannt. Hierzu sollten spezifische methodische Ansätze, die von den Antragstellern entwickelt wurden und die zu tragfähigen Ergebnissen führten, weiter ausgebaut und verfeinert werden. Die methodischen Zugänge der Antragsteller beruhen einerseits auf der Lösung von Optimierungsproblemen auf der Grundlage eines Variationsansatzes mit Einbeziehung zusätzlichen Wissens über die Szene (Saarbrücken) und andererseits auf der Verwendung einer monogenen Signalrepräsentation zur strukturellen und geometrischen Charakterisierung lokaler Bildsignale (Kiel). Im Fokus der Forschungsarbeiten stand einerseits die Robustheit der entwickelten Methoden zur Bildsegmentierung und Lageschätzung durch Einfügen weiterer Nebenbedingungen in den Variationsansatz (Saarbrücken) und andererseits das Bereitstellen solcher Nebenbedingungen durch eine strukturelle Analyse lokaler Bildstrukturen (Kiel). Bezüglich beider Vorhaben konnten im Berichtszeitraum signifikante Fortschritte erzielt werden, die im folgenden beschrieben werden. Durch die Integration neuer Nebenbedingungen können nun auch komplexe Interaktionen der verfolgten Objekte mit ihrer Umgebung modelliert werden. Beispiele hierfür sind Kollisionsvermeidung, die Interaktion von Sportlern mit Sportgeräten und die Behandlung geschlossener kinematischer Ketten. Es wurden verschiedene Verfahren entwickelt, um die durch das Auftreten von Selbstverdeckungen entstehenden Probleme bei der Lageschätzung kinematischer Ketten besser zu beherrschen. Bereits im ersten Projektabschnitt entwickelten wir dazu eine Methode zur Verwendung von Vorwissen über bekannte Winkelkonfigurationen. Zusätzlich ist es nun möglich, durch eine (manuelle oder automatische) Zerlegung der Objektmodelle in mehrere Teile weitere Silhouetten zu gewinnen, welche die Lageschätzung von kinematischen Ketten weiter stabilisieren. Die dabei gewonnenen Erkenntnisse ermöglichten wiederum, das im ersten Projektabschnitt entwickelte Verfahren zur gleichzeitigen Verfolgung mehrerer Objekte weiter zu verbessern. Diese in Projekt entwickelten Verfahren sind komplementär und können deshalb ohne Einschränkung gleichzeitig verwendet werden. Es wurde ein neues lokales Regionenmodell vorgestellt, auf dessen Grundlage zur Zeit ein neuartiges Verfahren zur Objekterkennung entwickelt wird. Damit beabsichtigen wir, neben Segmentierung und Lageschätzung auch Objekterkennung in dem verfolgten Lösungsansatz verfügbar zu haben, um automatisch zwischen mehreren Modellen aussuchen zu können. Mit diesem Ansatz wird eine von einem unserer Kooperationspartner vorgeschlagene Methode zur Objekterkennung erweitert. Die in diesem Projekt und allgemein in der Bildverarbeitung eingesetzten Methoden erfordern eine hinreichend vollständige und spezifische Charakterisierung lokaler Bildstrukturen. Der hierfür verfolgte Ansatz beruht auf der Analyse der Phase als kontrastinvariantes Merkmal. Im Berichtszeitraum konnten wesentliche Fortschritte für intrinsisch mehrdimensionaler Strukturen erzielt werden. In diesem Fall ist die Phase nicht mehr nur Träger der Paritätssymmetrie als Struktureigenschaft, sondern auch von Geometrie. Es wurde eine Verallgemeinerung des monogenen Signals entwickelt, genannt konformes monogenes Signal, welche als geometrische Merkmale neben der Richtung einer Struktur auch eine Isophotenkrümmung liefert. Dabei werden nicht gekrümmte (intrinsisch eindimensionale Strukturen, wie vom monogenen Signal korrekt erfasst) und gekrümmteu Strukturen in einem Signalmodell beschreibbar. Damit ist erstmals diese wichtige Klasse intrinsisch zweidimensionaler Strukturen korrekt identifizierbar und beschreibbar. Für Verzweigungen (junctions) und Ecken als eine andere wesentliche Klasse intrinsisch zweidimensionaler Strukturen konnte ebenfalls eine vollständige Beschreibung für Struktur (Paritätssymmetrie) und Geometrie (beteiligte Öffnungswinkel und Richtungen) formuliert werden. Diese sich durch Überlagerung von intrinsich eindimensionalen Strukturen ergebenden hochspezifischen Bildmerkmale lassen sich in der als Signal-Multivektor bezeichnenden Repräsentation erfassen und analysieren. Der Signal-Multivektor ist eine multivektorwertige Signalrepräsentation mit multivektorwertigen Komponenten in der homogenen konformen geometrischen Algebra des Euklidischen Raumes. Sie ist isomorph zu der monogenen Tensorstruktur, welche im Zusammenhang mit der ersten Projektphase entwickelt wurde. Sie hat jedoch den Vorzug, bezüglich der enthaltenen geometrischen Merkmale besser interpretierbar zu sein. Die markerfreie Verfolgung menschlicher Bewegungen, d.h. die Lageschätzung von Freiformflächen, welche mit Gelenken verbunden sind, ist als Zielrichtung möglicher Anwendungen zu sehen. Hierfür bieten sich unter anderem Szenarien aus den Sportwissenschaften, der Verkehrsüberwachung, der Interaktion zwischen Computern und Menschen, der Film– und Spieleindustrie (z.B. Avataranimationen) und aus der Medizin an (z.B. Orthopädie oder Geriatrie). Die entwickelten Zugänge zur lokalen Beschreibung von Bildstrukturen sind von grundlegender Bedeutung für viele Aufgaben der Bildverarbeitung und deren Anwendung. In der Literatur sind viele Anwendungen des klassischen monogenen Signals in medizinischer Bildverarbeitung und Optik zu finden. Aber auch die Geowissenschaften sind an den entwickelten Methoden interessiert. Darüber hinaus konnten kürzlich erstmalig isotrope Wavelets auf der Basis des monogenen Signals vorgestellt werden. Wir erwarten, dass das Einbinden der von der Kieler Arbeitsgruppe entwickelten Merkmalsbeschreibung lokaler Bildregionen in die von der Saarbrücker Arbeitsgruppe entwickelten Verfahren zur gleichzeitigen Bildsegmentierung und Lagebestimmung zu einer weiteren Stabilitätsverbesserung führen wird. Dies kann beispielsweise dadurch erfolgen, dass die strukturspezifischen Merkmale zur Klassifikation von Keypoints genutzt werden, z.B. bei der Korrespondenzfindung, oder als Nebenbedingungen in den Variationsansätzen Verwendung finden.
Publications
- Markerless motion capture of man-machine interaction. Proc. 2008 IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2008
B. Rosenhahn, C. Schmaltz, T. Brox, J. Weickert, D. Cremers, and H.-P. Seidel
(See online at https://doi.org/10.1109/CVPR.2008.4587520) - Localised mixture models in region-based tracking. In: J. Denzler, G. Notni und H. Süße (Herausgeber): Pattern Recognition, 21–30, Springer, 2009
C. Schmaltz, B. Rosenhahn, T. Brox, and J. Weickert
(See online at https://doi.org/10.1007/978-3-642-03798-6_3) - Image analysis by conformal embedding. Journal of Mathematical Imaging and Vision, 2010
O. Fleischmann, L. Wietzke, and G. Sommer
(See online at https://doi.org/10.1007/s10851-011-0263-5) - The Hilbert transform on the two–sphere: A spectral characterization. Mathematical Geosciences, 42(7):857-876 2010
O. Fleischmann, L. Wietzke, and G. Sommer
(See online at https://doi.org/10.1007/s11004-010-9278-5) - The signal multi–vector. Journal of Mathematical Imaging and Vision, 37(2):132-150, June 2010
L. Wietzke and G. Sommer
(See online at https://doi.org/10.1007/s10851-010-0197-3) - Region based pose tracking with occlusions using 3D models. Machine Vision and Applications, 2011
C. Schmaltz, B. Rosenhahn, T. Brox, and J. Weickert
(See online at https://doi.org/10.1007/s00138-010-0317-5)