Zielsetzung des Projekts war, die Robustheit von automatischer Sprachverarbeitung, insbesondere automatischer Spracherkennung, zu verbessern. Automatische Spracherkennung als intuitive Benutzerschnittstelle ist von besonderem Interesse, wenn traditionelle Eingabemethoden nicht oder wenig praktikabel sind, beispielsweise auf mobilen Endgeräten oder im Fahrzeug. Gerade in solchen Umgebungen führen jedoch häufig nicht-stationäre Störsignale (z. B. Straßenlärm oder Hintergrundsprecher) zu einem drastischen Abfall der Erkennungsleistung selbst bei der Erkennung einfacher Kommandowörter. Eine Vielzahl von Ansätzen existiert zur Verbesserung der Robustheit der Spracherkennung: Beispielsweise konnen mithilfe von Mikrophon-Arrays Stör- und Nutzsignalquellen lokalisiert und isoliert werden; dies erfordert jedoch Kenntnis über die entsprechende Aufnahmesituation, was z. B. bei der (forensischen) Analyse von Audioarchiven nicht gegeben ist. In diesem Projekt wurden daher einkanalige Eingaben betrachtet. Dafür wurden in der Literatur bisher hauptsächlich Verfahren vorgestellt, die eine sogenannte Quasi-Stationarität des Störsignals annehmen, d. h., das sich das Frequenzspektrum in aufeinanderfolgenden kurzen Zeitfenstern nicht wesentlich ändert - in diesem Fall ist eine Schätzung des Nutzsignals durch einfache Mittelwertbildung und Subtraktion möglich. Sollen jedoch nichtstationäre Störsignale mithilfe eines einkanaligen Verfahrens isoliert werden, ist das Verfahren der Nichtnegativen Matrix-Faktorisierung (NMF) von Interesse, das in diesem Projekt näher untersucht wurde. Hierbei werden die beobachteten Frequenzspektren in den Beitrag von bekannten Nutzsignal- (z. B. phonetische Einheiten, Wörter) und Störsignal-Spektren additiv zerlegt. Das Verfahren basiert also auf der Ausnutzung von Vorwissen über spektrale Charakteristika der zu trennenden Quellen, sowie deren Dynamik über die Zeit hinweg. Dieses Verfahren ist in der automatischen Sprachverarbeitung zunehmend populär und führt zu guten Ergebnissen selbst in niedrigen Signal-Rausch-Abständen. Die Hauptziele des vorliegenden Projektes waren nun erstens, die Information der NMF-Zerlegung (z. B. über den Beitrag der vorkommenden phonetischen Einheiten) direkt zur verbesserten Sprachdekodierung im Störgeräusch einzusetzen, statt wie bisher lediglich eine Sprachsignalschätzung mittels NMF vorzunehmen. Zweitens wurde die Alltagstauglichkeit von NMF-Verfahren in modernen Spracherkennern sowie modernen Rechnerarchitekturen untersucht. Schließlich wurde der Ansatz auf andere Gebiete der Audiosignalverarbeitung, wie Musiktranskription und Emotionserkennung, übertragen. Durch eine Kombination von neuartigen Verfahren zur Spracherkennung mit neuronalen Netzen, NMF-Signalschätzung und NMF-Sprachdekodierung wurde in einem internationalen Wissenschaftswettbewerb (CHiME Challenge 2013) der erste Platz (von 11) hinsichtlich Erkennungsleistung erreicht. Dabei erzielt das vorgestellte Spracherkennungssystem Genauigkeiten nahe an der Leistung einer vorgebildeten menschlichen Versuchsperson. Verbesserungen bestehender Systeme konnten auch in den Bereichen Emotionserkennung und Detektion nicht-linguistischer Vokalisierung (z. B. Lachen) erzielt werden. Positive Resultate wurden schließlich auch in der Musikverarbeitung erzielt; hier hat es sich insbesondere gezeigt, dass die simultane Analyse von Sprache und Störgeräusch mit ähnlichen Verfahren möglich ist wie die Analyse mehrstimmiger Musik. Im Rahmen des Projektes wurden eine quelloffene Software fur NMF entwickelt, sowie europäische Forschungskooperationen mit Institutionen in Finnland, Belgien und Frankreich im Bereich der robusten automatischen Sprach- und Audioerkennung ins Leben gerufen und vertieft.