Modeling and enhancement of binaural speech perception
Final Report Abstract
Die Verständlichkeit von Sprache ist in vielen Situationen durch unterschiedliche Faktoren eingeschränkt, z.B. durch Raumhall, Störgeräusche, schlechte Übertragungsqualität oder individuelle Schwerhörigkeit. Trotz einer Vielzahl von wissenschaftlichen Arbeiten im Bereich Sprachverständlichkeit und der Entwicklung einer Reihe von funktionellen Modellen, die für viele Situationen eine Vorhersage der menschlichen Sprachwahrnehmung erlauben, bestehen noch immer Wissenslücken in Bezug auf die komplexen perzeptiven Prozesse, die der Sprachverarbeitung zugrunde liegen. Das übergeordnete Ziel dieses Projektes war es daher ein besseres Verständnis der relevanten Einflussfaktoren und effektiven Verarbeitungsmechanismen von Sprache zu erlangen. Hierfür wurden insgesamt vier Experimente durchgeführt, die jeweils aus Hörversuchen mit normalhörenden Probanden sowie aus Anwendung bzw. Erweiterungen von bestehenden Vorhersagemodellen bestanden. Der spezifische Forschungsschwerpunkt lag auf der binauralen, also beidohrigen Sprachverarbeitung, die besonders für das Sprachverstehen in realen Hörsituationen mit räumlich verteilten Schallquellen relevant ist. Im ersten Experimente konnte gezeigt werden, dass die aus der Sprachverständlichkeitsforschung lange bekannten Vorteile einer räumlichen Trennung des Zielsprechers von den Störgeräuschquellen auch durch die sog. Höranstrengung messbar sind, d.h. die subjektiv empfundene, mit dem Verstehen der Sprache verbundene mentale Anstrengung. Das Bemerkenswerte an den Ergebnissen war, dass sich diese Reduktion der Höranstrengung auch in Bedingungen zeigte, in denen die Sprachverständlichkeit bereits bei oder nahe 100% (also optimal) war. Mit anderen Worten, auch wenn man bereits alles versteht profitiert man von einer räumlichen Trennung von Sprache und Störgeräusch, da es weniger anstrengend ist der Zielsprache zuzuhören. Auf Grundlage der experimentellen Daten wurde (nach Kenntnis des Autors) das weltweit erste Vorhersagemodell für binaurale Höranstrengung entwickelt. Im zweiten Experiment wurde das wesentliche Ergebnis aus Experiment I für Sprachmaskierer bestätigt, d.h. für Maskierer, die neben einer energetischen Maskierung auch zu sog. „informational masking“ führen, da die verständlichen Störsprecher bspw. mit dem Zielsprecher verwechselt werden können und somit beim Sprachverstehen mit dem Zielsprecher um die Aufmerksamkeit des Hörers konkurrieren. Zudem wurde gezeigt, dass im Falle von Sprachmaskierern nicht nur eine räumliche Trennung, sondern auch ein Geschlechterunterschied zwischen Ziel- und Störsprechern oder ein unverständlich Machen der Störsprecher sehr große Vorteil in Bezug auf Sprachverständlichkeit und Höranstrengung bewirken. Das dritte Experiment widmete sich einer systematischen Untersuchung der zeitlich-räumlichen Verarbeitung von Sprachinformation. Dabei wurde die gängige Modellvorstellung, dass in Räumen mit reflektierenden Wänden nur solche Sprachreflexionen zur Verständlichkeit beitragen, die kurz (also bis zu 50-100 ms) nach dem Direktschall beim Hörer eintreffen, explizit in Frage gestellt. Es wurde gezeigt, dass dies nicht immer der Fall ist, sondern auch sehr späte Reflexionen (z.B. 200 ms nach dem Direktschall), die bisher als irrelevant bzgl. ihres Informationsgehalts galten, zur dominierenden Sprachquelle aufsteigen können. Dies ist immer dann der Fall, wenn die wesentliche binaurale Information in den späten Reflexionen, nicht aber in den frühen Komponenten steckt. Diese neue Erkenntnis war mit bestehenden Modellen nicht vereinbar und erforderte die Entwicklung eines neuen Modells der zeitlich-räumlichen Verarbeitung der menschlichen Sprachwahrnehmung. Insgesamt konnte durch die in diesem Projekt gewonnenen Kenntnisse zum einen ein besseres Verständnis der der Sprachverarbeitung zugrunde liegenden Mechanismen bei Normalhörenden erzielt werden. Zum anderen wurden funktionelle Modelle an die neu gewonnenen Daten angepasst bzw. auf deren Grundlage weiterentwickelt. Die Kombination aus verbessertem Verständnis und präziseren Vorhersagemodellen bildet eine Grundlage für zukünftige Anwendungen in verschiedenen Bereichen, insb. in der audiologischen Diagnostik und Anwendung (Entwicklung und Anpassung von Hörgeräten).
Publications
- Binaural beats precedence – Integration of spatial-temporal information in speech intelligibility. Binaural Bash 2018, Boston, MA
J. Rennies, A. Warzybok, T. Brand & B. Kollmeier
- Binaural listening effort in noise and reverberation. Fortschritte der Akustik – DAGA 2018, März 2018, München
J. Rennies & G. Kidd, Jr.
- Is there spatial release from listening effort in noise and reverberation? 175th Meeting of the Acoustical Society of America ASA, May 2018, Minneapolis, MN
J. Rennies & G. Kidd., Jr.
(See online at https://doi.org/10.1121/1.5057114) - Spatial-temporal integration of speech reflections. Fortschritte der Akustik – DAGA 2019, März 2019, Rostock
J. Rennies, A. Warzybok, T. Brand & B. Kollmeier