Detailseite
Projekt Druckansicht

Bayes'sche Merkmalsverbesserung zur Erkennung verhallter und verrauschter Sprache bei großem Vokabular

Fachliche Zuordnung Akustik
Förderung Förderung von 2013 bis 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 235486169
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Das übergreifende Ziel des Vorhabens war die Entwicklung von Verfahren, die eine robuste Spracherkennung für großes Vokabular in Gegenwart von Raumhall und Umgebungsrauschen ermöglichen. Die durchgeführten Arbeiten gliedern sich dabei grob in fünf Bereiche. (i) Die Entwicklung eines Denoising Autoencoder (DA) zur Enthallung von Sprachsignalen. Zum Training eines DA werden normalerweise parallele Daten benötigt, wobei die ungestörte Version des Signals als Ziel an den Ausgang und die gestörte Version an den Eingang des Netzes gelegt werden. Das Besondere des hier entwickelten Verfahrens war, dass parallele Daten nicht benötigt werden, weil das ungestörte Zielsignal mit dem in Vorarbeiten entwickelten Bayes’schen Merkmalsextraktionsverfahren (Bayesian Feature Enhancement (BFE)) geschätzt wird. Damit können auch reale Aufnahmen gestörter Signale, bei denen parallele Aufnahmen von ungestörter und gestörter Version der Signale in der Regel nicht vorhanden sind, zum Training verwendet werden. (ii) Die Entwicklung eines akustischen Strahlformers (Beamformers), dessen Koeffizienten unter Zuhilfenahme eines neuronalen Netzes geschätzt werden. Das neuronale Netz übernimmt die Funktion eines hochauflösenden Sprachaktivitätsdetektors und gibt für jeden Zeit-Frequenz-Punkt an, ob er das Zielsprachsignal enthält oder nicht. Mit dieser vom Netz gelieferten Maske können dann die räumlichen Kovarianzmatrizen des Nutzsignals und der Störung berechnet werden, woraus wiederum die Strahlformerkoeffizienten nach bekannten Regeln statistisch optimaler Mehrkanalfilterung berechnet werden, z.B. die MVDR (Minimum Variance Distortionless Response) Lösung. (iii) Die Entwicklung von Verfahren zum gemeinsamen Training des erwähnten neuronalen Netzes zur Maskenschätzung und des neuronalen Netzes im akustischen Modell des Spracherkenners. Um den Maskenschätzer mit dem Cross Entropy Kriterium am Ausgang des neuronalen Netzes für das akustische Modell trainieren zu können, war es nötig, den Gradienten durch die komplexwertigen Operationen des akustischen Strahlformers zu propagieren. Dazu wurden Ableitungsregeln nach dem Wirtinger Kalkül für die Eigenwertzerlegung komplexwertiger Kovarianzmatrizen entwickelt. Durch die Rückführung des Gradienten aus dem akustischen Modell benötigt das Training des Maskenschätzers keine parallelen Daten mehr. (iv) Die Evaluation der entwickelten Spracherkennungssysteme in internationalen Vergleichstests (CHiME-3 und CHiME-4), bei dem sowohl das Paderborner System alleine als auch das mit dem Projektpartner RWTH Aachen und dem Forschungsinstitut FORTH, Kreta, gemeinsam entwickelte System vordere Plätze belegte. (v) Die Bereitstellung der entwickelten netzunterstützten akustischen Strahlformer als Open Source Software. Die im Rahmen des Projekts entwickelte netzunterstützte akustische Strahlformung wurde von vielen Forschergruppen übernommen. Dieser Erfolg ist zum einen dadurch geschuldet, dass das Thema der geräusch- und hallrobusten Spracherkennung durch den kommerziellen Erfolg der sog. intelligenten Lautsprecher (z.B. Amazon Echo, Google Home oder Apple Homepad) zurzeit in der wiss. Welt eine hohe Aufmerksamkeit erfährt. Der andere Grund liegt sicherlich in dem sehr guten Abschneiden unserer Gruppe bei den CHiME Vergleichstests und der Bereitstellung der Software als Open Source. Die Zusammenarbeit mit der RWTH Aachen hat sich insgesamt für beide Seiten als sehr fruchtbar erwiesen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung