Detailseite
Projekt Druckansicht

Bandbreitenerweiterung von Telefonsprachdatenbanken zum Training breitbandiger automatischer Spracherkenner

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Elektronische Halbleiter, Bauelemente und Schaltungen, Integrierte Systeme, Sensorik, Theoretische Elektrotechnik
Förderung Förderung von 2012 bis 2015
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 215637315
 
Erstellungsjahr 2014

Zusammenfassung der Projektergebnisse

Dieses DFG-Erkenntnistransferprojekt wurde durch die Technische Universität Braunschweig beantragt, um wissenschaftliche Grundlagen zur künstlichen Sprachbandbreitenerweiterung in die Anwendung zu bringen, die in der vorausgehenden DFG-Einzelförderung erforscht wurden. Als Anwendungspartner fungierte die European Media Laboratory GmbH, die sich mit der Entwicklung von Systemen zur automatischen Spracherkennung befasst. Gegenstand dieses bidirektionalen Transfervorhabens war eine Synergie aus beiden Kompetenzfeldern: Die künstliche Erweiterung der akustischen Bandbreite von schmalbandigen Telefonsprachdaten zum Training breitbandiger automatischer Spracherkenner. Die Erkennungsrate von automatischen Spracherkennern steigt mit der akustischen Bandbreite. Sprachqualität und -verständlichkeit beim Telefonieren profitiert vom aufkommenden breitbandigen Sprachservice HD Voice. Daher müssen zukünftige Telefonsprachdialogsysteme für HD Voice ausgelegt sein, um natürlichsprachige Konversationen mit großem Vokabular zu ermöglichen. Das Training der dafür erforderlichen akustischen Modelle erfordert jedoch breitbandige Telefonsprachdaten in sehr großem Umfang. Der im Vorgängerprojekt zu Untersuchungszwecken akquirierte WTIMIT-Korpus ist bislang die einzige breitbandige Telefonsprachdatenbank, aber mit 5.5 h an Sprachmaterial viel zu klein. Andere Sprachdatenbanken enthalten nur schmalbandige Telefonsprache oder Breitband-Studioaufnahmen ohne realistische Telefonübertragungscharakteristik. Da eine erneute Akquise von breitbandigen Telefonsprachdaten sehr zeit- und kostenintensiv ist, insbesondere für seltene kleinere Sprachen, stellt die künstliche Bandbreitenerweiterung herkömmlicher Telefonsprachdatenbanken eine preiswerte und aufwandsarme Alternative dar. Im Rahmen dieses Transfervorhabens wurde die Technologie zur Datenbankerweiterung in die Anwendung gebracht. Dazu hat der Anwendungspartner seine vollständige Trainings- und Testprozesskette der automatischen Spracherkennung zur Verfügung gestellt. Damit konnten praxisnahe Untersuchungen im Gesamtsystem durchgeführt werden. Durch umfangreiche Optimierungen der Trainings- und Testtools zur künstlichen Bandbreitenerweiterung konnte die Performanz noch einmal signifikant gesteigert werden. Im Vergleich zur Erkennungsreferenz, die mit einer begrenzten Trainingsdatenmenge an Breitbandsprache auskommen musste, wurde durch Hinzufügen bandbreitenerweiterter Trainingssprachdaten eine Verbesserung der Wortfehlerrate um ca. 9% relativ nachgewiesen. Im Gegensatz zum bisherigen Stand der Technik, der mittels einer erkennerspezifischen Lösung ein vergleichbares Ergebnis erzielt, kann die hier dargestellte Lösung von potentiellen Anwendern ohne Modifikation am Erkenner eingesetzt werden.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung