Detailseite
Methoden des Spracherwerbs basierend auf spärlicher Kodierung
Antragsteller
Professor Dr.-Ing. Reinhold Häb-Umbach
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2011 bis 2016
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 200293401
Ziel dieses Projektes ist die Entwicklung eines Systems zum Lernen von Referenzmustern für das unüberwachte Erlernen einer Sprache. Die Maschine soll wiederkehrende Muster in dem kontinuierlich gesprochenen Eingangssprachsignal entdecken und ein Inventar von Einheiten erlernen, und zwar auf zwei verschiedenen Abstraktionsebenen: zum Einen auf der Ebene der Laute und zum Anderen auf der Ebene der Wörter. Es sollen Verfahren aus dem Gebiet der spärlichen Kodierung eingesetzt werden, um eine Repräsentation des Sprachsignals zu finden, bei der die Darstellung des Sprachsignals im Kurzzeit-Spektralbereich durch eine Linearkombination von Basisvektoren angenähert wird. Während nichtnegative Matrixfaktorisierung (NMF) auf Sprache bereits eingesetzt worden ist, gibt es andere Verfahren, welche nicht die Nichtnegativität der Matrixelemente voraussetzen, so dass sie besser geeignet sind, um sie auf die üblichen Parametrisierungen von Sprachsignalen, etwa die Mel-Frequenz Cepstralen Koeffizienten, anzuwenden. Ein vielversprechendes Verfahren ist die k-Singulärwertzerlegung (k-SVD), die bisher vornehmlich im Computersehen eingesetzt worden ist. Alle diese Lernverfahren müssen jedoch erweitert werden, damit sie, zusätzlich zu dem Erlernen der typischen spektralen Muster, auch die zeitliche Korrelation von Sprachsignalen erfassen können. Dazu sollen Ansätze aus dem Bereich der dynamischen Zeitanpassung und der ”hidden” Markovmodell-basierten Spracherkennung verwendet werden. Auf der ersten, unteren Stufe der Dekomposition des Eingangssprachsignals sollen wiederkehrende Lauteinheiten entdeckt werden. Auf der zweiten, höheren Abstraktionsebene werden mit ähnlichen Verfahren wie auf der ersten Ebene Wort- oder Phraseneinheiten erlernt, basierend auf einer Beschreibung der unteren Ebene mit Hilfe von n-Grammen, d.h. von Häufigkeiten von Lautfolgen. Die untere Ebene soll dabei Posteriorwahrscheinlichkeiten an die obere Ebene weitergeben, um eine vorzeitige definitive Entscheidung über Laute zu vermeiden.
DFG-Verfahren
Schwerpunktprogramme
Teilprojekt zu
SPP 1527:
Autonomes Lernen