Project Details
Sprecherunabhängige Gebärdenspracherkennung mit großem Vokabular auf der Basis von Untereinheiten-Modellen
Applicant
Professor Dr.-Ing. Karl-Friedrich Kraiss
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2005 to 2010
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 13983024
Gegenwärtig wird ein bestehendes System zur Erkennung der deutschen Gebärdensprache weiterentwickelt, welches simultan Gestik und Mimik eines Gebärdensprechers videobasiert erfassen kann. Unter Verwendung von Ganzwortmodellen werden kontinuierliche Gebärdensätze sprecherabhängig mit einer Akkuratheit von 91,9% erkannt. Es wird erwartet, dass sich durch eine Unterteilung von Gebärden in kleinere Untereinheiten – ähnlich den Phonemen in der Lautsprache – der Trainingsaufwand erheblich reduzieren lässt. Im Rahmen des Projekts konnten auf dem Weg zur sprecherunabhängigen Erkennung eines großen Vokabulars auf Basis von Untereinheiten-Modellen bereits viele Teilziele erfolgreich umgesetzt werden. Der im Aufbau befindliche Gebärdensprachkorpus ist in seinem Umfang, was die Größe des Vokabulars und der Trainingspopulation betrifft, weltweit einzigartig. Eine Merkmalsnormierung und -selektion führte zu einer Steigerung der sprecherunabhängigen Erkennungsleistung von 45,5 % auf 68,1 %. Eine weitere Steigerung ergibt sich durch den Einsatz eines kombinierten Ansatzes zur Sprecheradaption, der eine schnelle Adaption der Modelle an einen unbekannten Sprecher gewährleistet. Das entwickelte Verfahren zur automatischen Transkription von Gebärden in Untereinheiten ermöglicht derzeit, für einen Sprecher bei verschiedenen Ausführungen derselben Gebärde eine recht stabile Unterteilung zu erhalten. Zwischen den Sprechern allerdings unterscheiden sich die Transkriptionen bislang noch teils sehr deutlich. Die Behandlung dieses Problems ist daher das primäre Ziel des vorliegenden Fortsetzungsantrags. Die Umsetzung erfordert eine weiterführende Erforschung sprecherinvarianter Merkmale sowie geeigneter Verfahren zur Sprechernormierung. Zudem muss der Gebärdensprachkorpus um weitere Trainingssprecher erweitert werden, um ein stabiles Aussprachelexikon schätzen zu können. Die automatische Transkription von Gebärden soll zukünftig nicht mehr rein datengetrieben erfolgen sondern auch Erkenntnisse aus manuell durchgeführten Unterteilungen einbeziehen. Ferner wird ein Speaker Clustering Verfahren zur schnellen Sprecheradaption implementiert, das von einer erweiterten Trainingspopulation profitiert.
DFG Programme
Research Grants