Nichtnegative Matrix-Faktorisierung zur störrobusten Merkmalsextraktion in der Sprachverarbeitung

Applicant Professor Dr.-Ing. Björn Schuller

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing

Term from 2010 to 2014

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 168309859

Final Report

Final Report Year 2013

Final Report Abstract

Zielsetzung des Projekts war, die Robustheit von automatischer Sprachverarbeitung, insbesondere automatischer Spracherkennung, zu verbessern. Automatische Spracherkennung als intuitive Benutzerschnittstelle ist von besonderem Interesse, wenn traditionelle Eingabemethoden nicht oder wenig praktikabel sind, beispielsweise auf mobilen Endgeräten oder im Fahrzeug. Gerade in solchen Umgebungen führen jedoch häufig nicht-stationäre Störsignale (z. B. Straßenlärm oder Hintergrundsprecher) zu einem drastischen Abfall der Erkennungsleistung selbst bei der Erkennung einfacher Kommandowörter. Eine Vielzahl von Ansätzen existiert zur Verbesserung der Robustheit der Spracherkennung: Beispielsweise konnen mithilfe von Mikrophon-Arrays Stör- und Nutzsignalquellen lokalisiert und isoliert werden; dies erfordert jedoch Kenntnis über die entsprechende Aufnahmesituation, was z. B. bei der (forensischen) Analyse von Audioarchiven nicht gegeben ist. In diesem Projekt wurden daher einkanalige Eingaben betrachtet. Dafür wurden in der Literatur bisher hauptsächlich Verfahren vorgestellt, die eine sogenannte Quasi-Stationarität des Störsignals annehmen, d. h., das sich das Frequenzspektrum in aufeinanderfolgenden kurzen Zeitfenstern nicht wesentlich ändert - in diesem Fall ist eine Schätzung des Nutzsignals durch einfache Mittelwertbildung und Subtraktion möglich. Sollen jedoch nichtstationäre Störsignale mithilfe eines einkanaligen Verfahrens isoliert werden, ist das Verfahren der Nichtnegativen Matrix-Faktorisierung (NMF) von Interesse, das in diesem Projekt näher untersucht wurde. Hierbei werden die beobachteten Frequenzspektren in den Beitrag von bekannten Nutzsignal- (z. B. phonetische Einheiten, Wörter) und Störsignal-Spektren additiv zerlegt. Das Verfahren basiert also auf der Ausnutzung von Vorwissen über spektrale Charakteristika der zu trennenden Quellen, sowie deren Dynamik über die Zeit hinweg. Dieses Verfahren ist in der automatischen Sprachverarbeitung zunehmend populär und führt zu guten Ergebnissen selbst in niedrigen Signal-Rausch-Abständen. Die Hauptziele des vorliegenden Projektes waren nun erstens, die Information der NMF-Zerlegung (z. B. über den Beitrag der vorkommenden phonetischen Einheiten) direkt zur verbesserten Sprachdekodierung im Störgeräusch einzusetzen, statt wie bisher lediglich eine Sprachsignalschätzung mittels NMF vorzunehmen. Zweitens wurde die Alltagstauglichkeit von NMF-Verfahren in modernen Spracherkennern sowie modernen Rechnerarchitekturen untersucht. Schließlich wurde der Ansatz auf andere Gebiete der Audiosignalverarbeitung, wie Musiktranskription und Emotionserkennung, übertragen. Durch eine Kombination von neuartigen Verfahren zur Spracherkennung mit neuronalen Netzen, NMF-Signalschätzung und NMF-Sprachdekodierung wurde in einem internationalen Wissenschaftswettbewerb (CHiME Challenge 2013) der erste Platz (von 11) hinsichtlich Erkennungsleistung erreicht. Dabei erzielt das vorgestellte Spracherkennungssystem Genauigkeiten nahe an der Leistung einer vorgebildeten menschlichen Versuchsperson. Verbesserungen bestehender Systeme konnten auch in den Bereichen Emotionserkennung und Detektion nicht-linguistischer Vokalisierung (z. B. Lachen) erzielt werden. Positive Resultate wurden schließlich auch in der Musikverarbeitung erzielt; hier hat es sich insbesondere gezeigt, dass die simultane Analyse von Sprache und Störgeräusch mit ähnlichen Verfahren möglich ist wie die Analyse mehrstimmiger Musik. Im Rahmen des Projektes wurden eine quelloffene Software fur NMF entwickelt, sowie europäische Forschungskooperationen mit Institutionen in Finnland, Belgien und Frankreich im Bereich der robusten automatischen Sprach- und Audioerkennung ins Leben gerufen und vertieft.

Publications

“Recognition of Non-Prototypical Emotions in Reverberated and Noisy Speech by Non-Negative Matrix Factorization,” EURASIP Journal on Advances in Signal Processing, Special Issue on Emotion and Mental State Recognition from Speech, vol. 2011, no. Article ID 838790
F. Weninger, B. Schuller, A. Batliner, S. Steidl, and D. Seppi
“Music Information Retrieval: An Inspirational Guide to Transfer from Related Disciplines,” in Multimodal Music Processing, ser. Dagstuhl Follow-Ups, M. Muller and M. Goto, Eds., vol. 11041, Schloss Dagstuhl, Germany, 2012, pp. 195–215
F. Weninger, B. Schuller, C. Liem, F. Kurth, and A. Hanjalic
“Optimization and Parallelization of Monaural Source Separation Algorithms in the openBliSSART Toolkit,” Journal of Signal Processing Systems, vol. 69, no. 3, pp. 267–277, 2012
F. Weninger and B. Schuller
“A Discriminative Approach to Polyphonic Piano Note Transcription using Non-negative Matrix Factorization,” in Proceedings 38th IEEE International Conference on Acoustics, Speech, and Signal Processing, ICASSP 2013, IEEE. Vancouver, Canada: IEEE, May 2013
F. Weninger, C. Kirst, B. Schuller, and H.-J. Bungartz
“Noise Robust ASR in Reverberated Multisource Environments Applying Convolutive NMF and Long Short-Term Memory,” Computer Speech and Language, Special Issue on Speech Separation and Recognition in Multisource Environments, vol. 27, no. 3, pp. 780–797, May 2013
M. Wollmer, F. Weninger, J. Geiger, B. Schuller, and G. Rigoll
“The TUM+TUT+KUL Approach to the CHiME Challenge 2013: Multi-Stream ASR Exploiting BLSTM Networks and Sparse NMF,” in Proceedings 2nd Workshop on Machine Listening in Multisource Environments, CHiME 2013, held in conjunction with ICASSP 2013, IEEE. Vancouver, Canada: IEEE, June 2013, pp. 25–30
J. T. Geiger, F. Weninger, A. Hurmalainen, J. F. Gemmeke, M. Wollmer, B. Schuller, G. Rigoll, and T. Virtanen

DFG Programme Research Grants