Ein integrierter Ansatz zur Störgeräuschunterdrückung und blinden Trennung von Sprachsignalen
Final Report Abstract
Trotz der in den letzten Jahren neu entstandenen technischen Kommunikationsmöglichkeiten, wie beispielsweise SMS, Videotelefonie oder sozialer Netzwerke, bleibt die gesprochene Sprache auch über die Entfernung die wichtigste Kommunikationsmodalität von Mensch zu Mensch. Aufgrund immer höherer Anforderungen an die Qualität und die Einsatzmöglichkeiten bleibt die Sprachsignalverbesserung, sei es für eine Mensch-zu-Mensch oder eine Mensch-zu-Maschine Kommunikation, ein wiederkehrendes Forschungsthema. In diesem Projekt wurden räumliche und spektrale Filterverfahren zur Geräuschreduktion und zur Quellentrennung entwickelt, die hinsichtlich der folgenden Aspekte innovativ sind. Zum einen wurden Quellentrennung und Störgeräuschunterdrückung gemeinsam betrachtet. In der Praxis ist es in der Tat so, dass nicht nur eine Art von Störung vorhanden ist, sondern dass in der Regel das Signal konkurrierender Sprecher auch noch durch additives Rauschen gestört ist. Das entwickelte Verfahren beruht auf der spärlichen Besetztheit von Sprache im Kurzzeit-Frequenzbereich. Diese Eigenschaft besagt, dass selbst bei zwei gleichzeitig aktiven Sprechern in jedem einzelnen Zeit-Frequenzpunkt (m,k) das Signal eines Sprechers das des anderen dominiert. Damit bietet sich ein zweistufiges Verfahren zur Signalextraktion an: In der ersten Stufe wird ermittelt, welches Quellensignal in welchem Zeit-Frequenzpunkt dominant ist, um dann in der zweiten Stufe mit dieser Information Filterkoeffizienten eines Strahlformers zu berechnen, um die Signale zu trennen. Die Posteriorwahrscheinlichkeiten der Sprecheraktivität wurden zusammen mit den Parametern eines Strahlformers und des Rauschmodells mit Hilfe des EM-Algorithmus geschätzt. Ein zweiter innovativer Aspekt dieses Projekts war die Verwendung von sogenannten direktionalen Statistiken zur Beschreibung räumlicher Information. Wir haben dazu die Watsonverteilung vorgeschlagen, eine Verteilung für komplexwertige Vektoren, die auf die Länge Eins normiert sind. Die Motivation zur Verwendung der normierten Beobachtungen ist die Tatsache, dass die Vektorlänge vornehmlich von dem Quellensignal bestimmt wird, während die Orientierung die räumliche Information trägt, die zur Quellentrennung ausgenutzt werden soll. Für die Parameter des Modells wurden Maximum-Likelihood und Bayes’sche Schätzer hergeleitet. Für den letzten Schätzer wurde ein quadratischer Erwartungswert eines Bingham-verteilten Zufallsvektors mit komplexwertigen Komponenten in geschlossener Form berechnet. Eine dritte Innovation, die aus dem Projekt hervorgegangen ist, ist ein neuartiges Verfahren zur Modellierung der Korrelationen eines Sprachsignals sowohl entlang der Zeit- als auch entlang der Frequenzachse. Fast alle Verfahren zur Sprachqualitätsverbesserung nutzen die Korrelationseigenschaften von Sprache aus. Dies geschieht in der Regel durch Glättungsfilter mit heuristisch eingestellten Parametern. Im Gegensatz dazu haben wir die Korrelationen in einem zweidimensionalen Hidden Markov Modell (2D-HMM) beschrieben, deren Parameter aus den Daten gelernt werden. Es wurde ein effizienter Inferenzalgorithmus för 2D-HMMs hergeleitet, der als Übertragung des in der digitalen Kommunikationstechnik so erfolgreichen Turboprinzips in die Sprachsignalverarbeitung interpretiert werden kann. Ein viertes Projektergebnis ist die fortlaufende Schätzung der Anzahl der aktiven Sprecher aus den Mikrofonsignalen. Dies wurde wiederum nicht durch eine Heuristik ermoglicht, sondern durch eine Erweiterung der Maximum Likelihood Schätzvorschrift für die Parameter der Watsonverteilung zu einer Maximum-a-Posteriori Schätzung mit einem variationellen EM Algorithmus. Die Anzahl der aktiven Sprecher ergab sich dann als Nebenprodukt der Parameterschätzung. Schließlich wurde noch ein MAP-Schätzer für das zeitvariante Leistungsdichtespektrum der Störung entwickelt, bei dem, anders als bei den meisten anderen Rauschschätzern, das Leistungsdichtespektrum der Störung als Zufallsvariable und nicht als unbekannter Parameter modelliert wird. Dabei wurde eine skalierte inverse chi-quadrat Verteilung als näherungsweise konjugierte a priori Verteilung eingesetzt.
Publications
- On Initial Seed Selection for Frequency Domain Blind Speech Separation, in Proc. INTERSPEECH – Conference of the International Speech Communication Association, Florence, Italy, Aug. 2011
D.H. Tran Vu and R. Haeb-Umbach
- Exploiting Temporal Correlations in Joint Multichannel Speech Separation and Noise Suppression Using Hidden Markov Models, in Proc. International Workshop on Acoustic Signal Enhancement (IWAENC), Aachen, Germany, Sept. 2012 [Best Student Paper Award]
D.H. Tran Vu and R. Haeb-Umbach
- Blind Speech Separation Exploiting Temporal and Spectral Correlations Using Turbo Decoding of 2D-HMMs, in Proc. European Signal Processing Conference (EUSIPCO), Marrakesh, Morocco, Sept. 2013
D. H. Tran Vu and R. Haeb-Umbach
- MAP-Based Estimation of the Parameters of a Gaussian Mixture Model in the Presence of Noisy Observations, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, Canada, May 2013
A. Chinaev and R. Haeb-Umbach
- Using the Turbo Principle for Exploiting Temporal and Spectral Correlations in Speech Presence Probability Estimation, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Vancouver, Canada, Mai 2013
D. H. Tran Vu and R. Haeb-Umbach
- Source Counting in Speech Mixtures Using a Variational EM Approach for Complex Watson Mixture Models, in Proc. IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP), Florence, Italy, Mai 2014
L. Drude, A. Chinaev, D.H. Tran Vu and R. Haeb-Umbach
(See online at https://doi.org/10.1109/ICASSP.2014.6854924)