Automatic activity recognition in large image databases
Final Report Abstract
Infolge rapiden technischen Fortschritts und stetig sinkender Hardwarekosten sind Digitalkameras zu alltäglichen Gebrausgegenständen geworden. Neben professionellen Anwendern wie Fotoreportern oder Fernsehproduzenten, die auf technisch ausgereifte Geräte zurückgreifen können, profitieren Privatleute insbesondere davon, dass Kameras mittlerweile standardmäßig in Smartphones, Tabletcomputern und Laptops eingebaut sind, so dass praktisch jedermann jederzeit und überall Fotos oder Videos aufnehmen kann. Gleichzeitig erlauben es soziale Medien, diese Daten bequem mit Freunden oder gar der Weltöffentlichkeit zu teilen. Diese technischen Entwicklungen haben zu einer wahren Explosion digital verfügbarer Bilder geführt und es wird inzwischen schwierig, dieser Bilderflut noch Herr zu werden. Insbesondere für Anwender, wie z.B. Journalisten, die aus beruflichen Gründen nach geeignetem Bildmaterial suchen müssen, ergibt sich das Problem, in explosionsartig wachsenden Datenbeständen die richtigen Bilder zu finden. In der Praxis werden daher Computer Vision Algorithmen eingesetzt, die es erlauben, den Inhalt eines Fotos oder Videos automatisch zu kategorisieren und diese Bilddaten so der Suche zugänglich zu machen. In diesem Projekt wurde erforscht, wie sich solche Verfahren an die besonderen Anforderungen anpassen lassen, die sich aus immer schneller wachsenden Bilddatenbeständen ergeben. Insbesondere haben wir die Frage untersucht, ob und wie automatisch und möglichst schnell erkannt werden kann, was Menschen, die in einem Bild oder Video zu sehen sind, machen. Neben der Bildersuche im Internet werden solche Technologien beispielsweise wieder im Journalismus eingesetzt, etwa wenn eine Reporterin für ihre Sportreportage ein Videoarchiv nach Fußballszenen durchsucht, in denen entscheidene Tore fielen. Ein anderes Anwendungsgebiet für schnelle Verfahren zur Erkennung menschlicher Aktivitäten, das zuletzt häufiger diskutiert wurde, findet sich bei Fahrerassistenzsystemen, die z.B. anhand von Videobildern erkennen sollen, ob Kinder auf dem Bürgersteig spielen und möglicherweise auf die Straße rennen. In unserem Projekt konnten wir in der Tat besonders schnelle Verfahren zur Handlungserkennung realisieren. Anders als bei vielen bisher üblichen Ansatzen wurden unsere Methoden von Anfang an auf Effizienz ausgelegt. So konnten wir z.B. einen neuen Ansatz zur Erkennung von Fußgängern im Strassenverkehr entwickeln, der schnell genug ist, um in der Praxis eingesetzt werden zu können. Zudem konnten wir zeigen, wie sich Informationen, die von mehreren Kameras gleichzeitig aufgenommen wurden, nutzen lassen, um Verfahren zu trainieren, die anschließend bei der Analyse einzelner Bilder weniger Fehler machen. Trotz dieser Erfolge bleibt festzustellen, dass die Bild-basierte Erkennung menschlicher Aktivitäten immer noch ein schwieriges Problem ist, das keinesfalls abschließend gelöst ist. Insbesondere wenn in einem Bild oder Video mehrere Personen zu sehen sind, die zudem noch mit Gegenständen hantieren, stoßen Algorithmen nach wie vor schnell an ihre Grenzen. Hier besteht noch immer großer Forschungsbedarf.
Publications
- Gait Recognition by Learningn Distributed Key Poses. In Proc. Int. Conf on Image Processing. IEEE, 2012
M. Cheema, A. Eweiwi, and C. Bauckhage
- Who is Doing What? Simultaneous Recognition of Actions and Actors. In Proc. Int. Conf on Image Processing. IEEE, 2012
M. Cheema, A. Eweiwi, and C. Bauckhage
- Discriminative Joint Non-negative Matrix Factorization for Human Action Classification. In Proc. German Conf. on Pattern Recognition. Springer, 2013
A. Eweiwi, M. Cheema, and C. Bauckhage
- A Stochastic Late Fusion Approach to Human Action Recognition in Unconstrained Images and Videos. In Proc. German Conf. on Pattern Recognition. Springer, 2014
M. Cheema, A. Eweiwi, and C. Bauckhage
(See online at https://doi.org/10.1007/978-3-319-11752-2_51) - Action Recognition in Still Images by Learning Spatial Interest Regions from Videos. Pattern Recognition Letters, 2014
A. Eweiwi, M. Cheema, , and C. Bauckhage
(See online at https://dx.doi.org/10.1016/j.patrec.2014.07.017) - Human Activity Recognition by Separating Style and Content. Pattern Recognition Letters, 2014
M. Cheema, A. Eweiwi, and C. Bauckhage
(See online at https://doi.org/10.1016/j.patrec.2013.09.024)