Detailseite
Audiovisuelle Sprachverbesserung für stark gestörte räumliche Audiosignale
Antragstellerin
Professorin Dr.-Ing. Dorothea Kolossa
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 554605289
Die Sprachverbesserung in realen Umgebungen ist seit einigen Jahrzehnten ein bedeutendes Forschungsthema. Jüngste technologische Entwicklungen bringen neue Möglichkeiten und Herausforderungen. Zwei besondere Herausforderungen sind der Wunsch nach Algorithmen für zunehmend komplexe Umgebungen mit mehreren Sprechern und Hintergrundgeräuschen, sowie die wachsende Bedeutung räumlicher Audiosignale für Virtual- und Augmented-Reality- (VR und AR) Anwendungen. Neue Möglichkeiten ergeben sich aus der Verfügbarkeit von Mehrkanal-Audio mit Videoaufnahmen sowie Fortschritten in datengetriebenen Verarbeitungstechniken. Es bestehen jedoch zwei wesentliche Lücken im Stand der Technik der Sprachverbesserung: Die Leistungsfähigkeit nimmt bei sehr niedrigen Signal-to-Noise Ratios (SNRs) erheblich ab, und binaurale Cues bleiben in den verarbeiteten Audiosignalen oft nicht erhalten. Dieses Projekt zielt darauf ab, diese kritischen Lücken zu schließen, indem Algorithmen entwickelt werden, die Sprache aus sehr niedrigen SNRs durch die Integration visueller Informationen wiederherstellen. Dabei konzentrieren wir uns auf die Erhaltung räumlicher Informationen durch dedizierte, mehrkanalige Verarbeitung. Trotz des schnellen Fortschritts in der audiovisuellen (AV) Sprachverbesserung und in räumlichem Audio liefern bestehende Ansätze keine hochwertigen binauralen Signale aus AV-Mehrkanaleingaben. Vor allem fehlt es an zuverlässiger Performanz bei schlechten SNRs und an einem holistischen Ansatz, der sowohl Verständlichkeit als auch räumliche Wahrnehmung während der Design- und Bewertungsphasen einbezieht. Das Hauptziel dieses Projekts ist die Entwicklung generativer und diskriminativer Methoden zur AV-Sprachverbesserung. Die Methoden sollen systematisch bewertet, verglichen und optimiert werden, um die Erhaltung räumlicher Informationen, die Sprachverständlichkeit und die Robustheit bei niedrigen SNRs zu gewährleisten. Zu den erwarteten Beiträgen gehören die Erstellung einer öffentlich zugänglichen Datenbank mit AV-Daten, einschließlich Ein- und Mehrkanal-Audio, annotiert mit Sprecheraktivität und -identität, sowie Referenztranskripte zur Bewertung der Sprachverständlichkeit. Wir werden offenen Quellcode für generative und diskriminative Mehrkanal-AV-Sprachverbesserung entwickeln und bereitstellen, der auf beliebige Arrays anwendbar ist. Umfassende Leistungsbewertungen der neuen Algorithmen unter verschiedenen akustischen Bedingungen werden unter Verwendung instrumenteller Metriken durchgeführt und mit bestehenden Baselines verglichen. Zusätzlich organisieren wir eine Machine-Learning-Challenge zur Mehrkanal-AV-Sprachverbesserung, um reproduzierbare und direkt vergleichbare Forschung in diesem Bereich zu unterstützen. So soll unsere Forschung das Feld der Sprachverbesserung insbesondere in herausfordernden realen Umgebungen vorantreiben und die Entwicklung natürlicherer und verständlicherer Audioerlebnisse in VR und AR-Anwendungen unterstützen.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Israel
ausländischer Mitantragsteller
Professor Dr. Boaz Rafaely