Parametrisation of prosody and voice quality for concatenatice speech synthesis in view of emotion expression

Applicant Dr. Marc Schröder

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing

Term from 2006 to 2011

Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 24430698

Ein Haupthindernis für die Akzeptanz von Sprachsynthese ist ihre mangelnde Ausdruckskraft. Um z.B. den emotionalen Gehalt von Äußerungen angemessen vermitteln zu können, müsste der Klang der synthetischen Stimme verändert werden; jedoch fehlt neueren Sprachsyntheseverfahren die Möglichkeit, die relevanten Parameter im nötigen Umfang zu beeinflussen. In der Sprachsynthese sind derzeit Natürlichkeit und Flexibilität nicht vereinbar: neuere korpusbasierte Unit Selection Syntheseverfahren klingen zwar oft natürlich, können aber nur einen einzigen Sprechstil realisieren, der bei der Aufnahme des Sprachkorpus bestimmt wird. Dem gegenüber stehen ältere Verfahren wie Formant- oder Diphonsynthese, die zwar parametrisierbar sind, aber recht unnatürlich klingen. Es existiert derzeit keine Synthesemethode, die die Natürlichkeit korpus-basierter Synthese mit der Parametrisierbarkeit früherer Systeme verbindet. Das Projekt PAVOQUE soll einen wesentlichen Beitrag dazu leisten, diese Unvereinbarkeit von Synthesequalität und Parametrisierbarkeit zu überwinden. In einem aktuellen, korpus-basierten Sprachsynthesesystem erforscht es Methoden für die nötige Parametrisierbarkeit der Schlüsselparameter für den Ausdruck von Emotionen in der Stimme: Prosodie (Intonation und Rhythmus) und Stimmqualität. Zwei Lösungsansätze werden verfolgt: Parameter-basierte Selektion von Units aus dem Korpus, und Nachverarbeitung des synthetischen Sprachsignals mit Signalmanipulationsverfahren. Dadurch soll ein hohes Mali an Ausdruckskraft bei gleichbleibend guter Qualität des Sprachsignals bereitgestellt werden.

DFG Programme Research Grants

Servicenavigation

Hauptnavigation

Parametrisation of prosody and voice quality for concatenatice speech synthesis in view of emotion expression

Additional Information

Servicenavigation

Hauptnavigation

Parametrisation of prosody and voice quality for concatenatice speech synthesis in view of emotion expression

Additional Information

Textvergrößerung und Kontrastanpassung