HFVSA: Human Focused Visual Scene Understanding
Final Report Abstract
Es wurden Verfahren entwickelt, die visuelle Daten automatisch verarbeiten und interpretieren. Der Fokus lag auf Daten, in denen Menschen mit Objekten interagieren. Im Bereich der Erkennung der menschlichen 2D Pose wurde die Methodik soweit weiterentwickelt, dass das menschliche Verhalten in Videodaten besser analysiert werden kann. Dies kann zum Beispiel genutzt werden, um Bewegungsabläufe im Sport zu analysieren. Auch bei der Rekonstruktion der 3D Pose aus einem einzelnen Bild gab es deutliche Fortschritte in der erreichten Genauigkeit, auch wenn in diesem Gebiet noch viele Probleme ungelöst sind. Im Bereich der Analyse von menschlichen Verhalten in langen Videosequenzen, insbesondere der Identifizierung von Videoabschnitten in denen bestimmte Handlungen vollzogen werden, gab es große Fortschritte sowohl in der Skalierbarkeit als auch in der Erkennungsgenauigkeit. Solche Verfahren konnen zum Beispiel bei der Auswertung oder Zusammenfassung von Videomaterial eingesetzt werden. Darüber hinaus sind neue grundlegende Ansätze entstanden, die noch weiterentwickelt werden mussen. So ist es gelungen einem Computer beizubringen, Objekte zu erkennen, ohne dem Computer wie üblich Bildausschnitte von Objekten zu zeigen. Stattdessen wurden kurze Videosequenzen gezeigt und ein Algorithmus entwickelt, der nach den Objekten in den Videos sucht, die ähnlich aussehen und in einer ähnlichen Weise benutzt werden. Um ein kontinuierliches Lernen zu ermöglichen, wurden Verfahren entwickelt, die neue Klassen ohne großen Rechenaufwand dazulernen können. Es ist auch gelungen, deformierbare Objekte mitsamt der unterliegenden Skelettstruktur zu rekonstruieren, während sie in der Hand deformiert werden. Dazu wird die Handobjektinteraktion mit einer Tiefenkamera aufgenommen und die Handbewegungen erfasst. Auch wenn die Robustheit des Verfahrens noch verbessert werden muss, bietet der Ansatz die Möglichkeit, reelle deformierbare Objekte für die virtuelle Realität ohne großen Aufwand zu digitalisieren.
Publications
- (2013). Towards understanding action recognition. In International Conference on Computer Vision (ICCV’13), pages 3192–3199
Jhuang, H., Gall, J., Zuffi, S., Schmid, C., and Black, M.
- (2014). Body parts dependent joint regressors for human pose estimation in still images. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(11):2131– 2143
Dantone, M., Gall, J., Leistner, C., and van Gool, L.
(See online at https://doi.org/10.1109/TPAMI.2014.2318702) - (2015). 3d object reconstruction from hand-object interactions. In International Conference on Computer Vision (ICCV’15), pages 729–737
Tzionas, D. and Gall, J.
- (2016). Capturing hands in action using discriminative salient points and physics simulation. International Journal of Computer Vision, 118(2):172–193
Tzionas, D., Ballan, L., Srikantha, A., Aponte, P., Pollefeys, M., and Gall, J.
(See online at https://doi.org/10.1007/s11263-016-0895-4) - (2016). Temporal action detection using a statistical language model. In IEEE Conference on Computer Vision and Pattern Recognition (CVPR’16), pages 3131 – 3140
Richard, A. and Gall, J.
(See online at https://doi.org/10.1109/CVPR.2016.341) - (2017). Weak supervision for detecting object classes from activities. Computer Vision and Image Understanding, 156:138 – 150
Srikantha, A. and Gall, J.
(See online at https://doi.org/10.1016/j.cviu.2016.09.006)