Detailseite
Ein integrierter Ansatz zur Störgeräuschunterdrückung und blinden Trennung von Sprachsignalen
Antragsteller
Professor Dr.-Ing. Reinhold Häb-Umbach
Fachliche Zuordnung
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung
Förderung von 2010 bis 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 193484692
In diesem Vorhaben sollen die bisher meist getrennt bearbeiteten Probleme der Geräuschreduktion und der blinden Trennung von Sprachsignalen gemeinsam betrachtet werden. Während in der Literatur meist von einer konstanten und bekannten Anzahl von Sprechern ausgegangen wird, soll hier ein Verfahren entwickelt werden, welches ein entstörtes und entmischtes Ausgangssignal hoher Qualität für wechselnde Gesprächssituationen liefert, in denen mal einer und ein andermal mehrere Sprecher aktiv sind. Zur Lösung des Problems wird die Dünnbesetztheit von Sprache im Zeit-Frequenzbereich ausgenutzt. Es wird ein neuartiges statistisches Modell entwickelt, in dem die Phasendifferenzen der Mikrofonsignale über ein Gemisch von direktionalen, d.h. auf einer Hyperkugel definierten Verteilungen und die Amplituden über ein Gemisch von Gamma-Verteilungen beschrieben werden, deren Parameter mit Hilfe des Expectation Maximization Algorithmus geschätzt werden. Die dabei abfallenden Sprachaktivitätswahrscheinlichkeiten werden zur Lösung des Permutationspro¬blems und zur Rekonstruktion der Quellensignale verwendet. Die zunächst für eine blockbasierte Verarbeitung entwickelten Schätzverfahren sollen anschließend in sequentielle Algorithmen überführt werden, um eine Geräuschreduktion und Quellentrennung mit möglichst geringer Latenz zu erreichen.
DFG-Verfahren
Sachbeihilfen