Videobasierte Erfassung von Gestik und Mimik für die Gebärdenpracherkennung
Final Report Abstract
Gebärdensprachen stellen vollwertige und lebendige Sprachen dar, die Gehörlose und Schwerhörige für die tägliche Kommunikation untereinander verwenden. Die Vermittlung linguistischer Inhalte erfolgt dabei durch die Kombination manueller und nicht-manueller Ausdrucksmittel. Leider beherrschen nur wenige Hörende eine Gebärdensprache. Dolmetscher können wegen beschränkter Verfügbarkeit und hoher Kosten nur selten eingesetzt werden. Die Folge für die Gehörlosen sind Integrationsprobleme und starke Einschränkungen bezüglich eines unabhängigen, selbstbestimmten Lebens. Um die Kommunikation zwischen Hörenden und Gehörlosen zu verbessern, wurde ein mobiler Gebärdenspracherkenner entwickelt, der Gestik und Mimik eines Gehörlosen nicht-intrusiv erfasst und in Text bzw. Lautsprache übersetzt. Das System soll von Gehörlosen als einfacher Dolmetscher bei Alltagsgeschäften (z.B. Banken oder Ämter) und für den gebärdengesteuerten Zugriff auf elektronische Medien wie Computer und Internet eingesetzt werden. Im Hinblick auf eine weite Verbreitung kommt mit einem Laptop und einer frontalen Webcam nur Standard-Hardware zum Einsatz. Bisher wurden folgende Ergebnisse erzielt: Nicht-intrusive Erfassung manueller und mimischer Merkmale: Während bei der Lautspracherkennung ein eindimensionales akustisches Signal vorliegt, sind hier die mimischen Merkmale und die hochdynamischen Bewegungen beider Hände und der Finger simultan und in Echtzeit aus einer Videosequenz zu extrahieren. Infolge der frontalen Kameraanordnung kommt es dabei zu gegenseitigen Verdeckungen der Hände bzw. zur Verdeckung des Gesichts durch die Hände. Änderungen der Umweltbedingungen verursachten Farbverfälschungen und Schattenwurf im Gesicht. Durch eine Kombination bekannter Methoden der Bildverarbeitung (u. a. variable Form- und Texturschablonen, Bewegungsvorhersagen, adaptive Beleuchtungskompensation) mit neuen Ansätzen (a priori-Wissen, biomechanisches 3D-Kopfmodell, 2D-Oberkörpermodell, Multi-Hypothesen-Verfolgung) konnten diese Probleme gelöst werden. Die Merkmalserfassung ist annähernd echtzeitfahig und robust gegenüber Umwelteinflüssen. Erkennung von Einzelgebärden: Es existiert ein Prototyp, der bei einem Vokabular von 220 Einzelgebärden alleine mit manuellen Merkmalen eine personenabhängige Erkennungsrate von 99,0% erzielt. Die Verarbeitung erfolgt nahezu in Echtzeit. Damit ist in der Gebärdenspracherkennung der Stand erreicht, den vor ca. 20 Jahren der Einzelwort-Erkenner für die Lautsprache darstellte. Erstmals wurden auch Untersuchungen zur personenunabhängigen Erkennung durchgeführt. Durch die Fusion manueller und mimischer Merkmale werden 52 Einzelgebärden zu 55,7% richtig erkannt. Dieser vergleichsweise niedrige Wert wird durch die hohe interpersonelle Variabilität der Gebärdenausführung verursacht (es existiert keine Gebärden-Hochsprache). Erkennung von Gebärdensätzen mit Ganzwort-Modellen: Für die Erkennung kontinuierlicher Gebärdensprache mit Ganzwort-Modellen wurde ein neuartiges Verfahren entwickelt, das die Koartikulationseffekte zwischen den Einzelgebärden kompensiert. Für aus zwei bis neun Gebärden bestehende Sätze wurde eine Erkennungsrate von über 90,0% festgestellt. Erkennung von Gebärdensätzen mit Untereinheiten-Modellen:Die Erstellung und das Training großer Vokabulare mit Ganzwortmodellen sind aufgrund der Menge des erforderlichen Trainingsmaterials sehr aufwändig. Um umfangreiche Vokabulare erschließen zu können, wurde daher mit einem datengetriebenen Clustering-Verfahren eine automatische Transkription von Gebärden in Untereinheiten (vergleichbar den Phonemen der Lautsprache) durchgeführt. Die so identifizierten Untereinheiten dienen nun dem Training von Untereinheiten-Modellen, mit denen sich neue, bisher nicht gesehene Gebärden modellieren lassen. Es konnte gezeigt werden, dass aus Untereinheiten synthetisierte Gebärden zu ca. 90% erkannt werden. Damit lassen sich das benötigte Trainingsmaterial und der Trainingsaufwand auf ein Minimum reduzieren. Im Rahmen zukünftiger Arbeiten wird das existierende Erkennungssystem weiterentwickelt, um noch vorhandene Beschränkungen zu beseitigen. Primäre Ziele sind dabei die wesentliche Erweiterung des Vokabulars um themenunabhängige Gebärden und das Erreichen der Personenunabhängigkeit auf Basis eines erweiterten Trainings. Da Gebärdensprachen eine hohe interpersonelle Variabilität aufweisen, muss das System um die Fähigkeit zur schnellen Sprecheradaption ergänzt werden. Die Umsetzung erfordert den Aufbau eines umfangreichen Gebärdensprachkorpus, die Erforschung sprecherinvarianter Merkmale und die Entwicklung eines Modells der Gebärdenspracherzeugung. Zudem werden Erkenntnisse aus der Linguistik und Bewegungsanalyse in den bisher rein datengetriebenen Ansatz zur Modellierung von Untereinheiten einfließen. Die Gebärdenspracherkennung bietet vielfaltige Anwendungsmöglichkeiten. Die Erkennung lässt sich beispielsweise in einen einfachen Dolmetscher integrieren, der die Kommunikation zwischen Gehörlosen und Hörenden im Alltag vereinfacht. Ebenfalls denkbar ist der Einsatz in einem automatischen Tutor für Gebärdensprache, der Personen mit Gehörverlust, Gehörlose mit Gebärdensprach-Defiziten sowie interessierte Hörende beim Erlernen einer Gebärdensprache unterstützt. Weitere Anwendungen ergeben sich auf dem Gebiet der multimodalen Mensch-Maschine Interaktion. Die nicht-intrusive Merkmalsextraktion erschließt hierbei neue Modalitäten für die Interaktion mit komplexen Systemen. Während die Dateneingabe bisher mittels Tastatur, Maus oder Sprache erfolgen musste, können nun ebenfalls die gestischen und mimischen Kanäle des Menschen genutzt werden. Erfolgreich umgesetzt wurde bereits die Implementierung eines mimikgesteuerten Rollstuhls. Motorisch stark eingeschränkte Menschen können sich mit diesem elektrischen Rollstuhl ohne fremde Hilfe fortbewegen. Die Ableitung der Steuersignale erfolgt direkt von der Mimik des motorisch behinderten Benutzers.
Publications
- Benutzeradaptive videobasierte Erfassung der Mimik als Interface für motorisch eingeschränkte Personen. (2004) In: Tolxdorf, T., J. Braun, et al (Eds.): Proceedings des Workshops , Volume Informatik aktuell GI, pp. 20-24, 29.-30. März, Berlin, Springer, ISBN 3-540-21059-8
Canzler U., Minklai M.
- Non-Intrusive Sign Language Recognition for Human-Computer Interaction. (2004) In: 9th IFAC/IFIP/IFORS/IEA Symposium Analysis, Design, ana Evaluation of Human-Machine Systems, pp. CD-paper 49, September 7-9, Atlanta, Georgia
Zieren J., Kraiss K.-F.
- Person-Adaptive Facial Feature Analysis for an Advanced Wheelchair User-Interface. (2004) In: Paul Drews (Eds.): Conference on Mechatronics & Robotics 2004, Volume Part III, pp. 871-876, September 13 - 15, Aachen, Sascha Eysoldt Verlag, ISBN 3-938153-50-X
Canzler U., Kraiss K.-F.
- Person-Adaptive Facial Feature Analysis. (2004) In: The Faculty of Electrical Engineering, Czech Technical University in Prague (Eds.): 8th International Student Conference on Electrical Engineering POSTER 2004, Volume CD, Kapitel Papers-Section 1C, pp. IC62, May 20, Prague
Canzler U., Wegener B.
- (2005). Nicht-intrusive Mimikanalyse. Dissertation
Ulrich Canzler
- Robust Person-Independent Visual Sign Language Recognition. (2005) In: Marques, J. S./ Perez de la Bianca, N. / Pina, P (Eds.): Proceedings of the 2nd Iberian Conference on Pattern Recognition and Image Analysis IbPRIA 2005 , Volume Lecture Notes in Computer Science 3522, pp. 520-528, June 7-9, Estoril / Portugal, Springer, ISBN 3-540- 26153-2
Zieren J., K.-F. Kraiss
- Videobasierte Gebärdenspracherkennung. Analyse von Gestik und Mimik für eine innovative Mensch-Maschine-Schnittstelle. (2005) In: Bild und Erkenntnis. Formen und Funktion des Bildes in Wissenschaft und Technik , pp. 362-363, Springer, ISBN 3-422-06463-X
Canzler U.
- Visuelle Kommunikation. Der gestengesteuerte Informationskiosk. (2005) In: Bild und Erkenntnis. Formen und Funktion des Bildes in Wissenschaft und Technik , pp. 346-347, Springer, ISBN 3-422-06463-X
Agris, U.
- Advanced Man-Machine Interaction. Fundamentals and Implementation. (2006) In: Series: Signals and Communication Technology , Springer, ISBN 3-540-30618-8
Kraiss, Karl-Friedrich
- Rapid Signer Adaptation for Isolated Sign Language Recognition . (2006) In: Proceedings of IEEE International Conf. on Computer Vision and Pattern Recognition, June 17-22, New York, ISBN 0-7695-2646-2
Agris U., Schneider D., Zieren J., Kraiss K.-F.
- Visual Hand Posture Recognition in Monocular Image Sequences. (2006) In: Franke, K. / Müller, K.-R. / Nickolay, B.; Schäfer, R. (Eds.): Pattern Recognition, Proceedings of the 28th DAGM Symposium, Volume Lecture Notes in Computer Science, Vol. 4174, pp. 566-575, September 12th -14th, Berlin, ISBN 10: 3-540-44412-2
Dick T., Zieren J., Kraiss K.-F.