Detailseite
Projekt Druckansicht

Statistische Methoden für die Übersetzung geschriebener Sprache

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2003 bis 2008
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5400874
 
Das Ziel dieses Vorhabens ist es, Methoden zur statistischen Textübersetzung (d.h. Übersetzung geschriebener im Unterschied zu gesprochener Sprache) zu erforschen, zu implementieren und diese Methoden experimentell an konkreten Übersetzungsaufgaben zu evaluieren.Innerhalb der vergangenen Jahre sind an der RWTH bereits Verfahren und Systeme für die Übersetzung gesprochener und geschriebener Sprache in verschiedenen geförderten Projekten (Verbmobil/BMBF, Eutrans/EU, Giza++/US-NSF) mit großem Erfolg entwickelt worden. In den unparteiischen Evaluierungen (Deutschland: Verbmobil, international: USDARPA) konkurrierender Systeme nahmen die RWTH-Systeme jeweils die Spitzenposition ein. Z.B. in der Verbmobil-Evaluierung hatte das RWTH-System eine um einen Faktor 2 niedrigere Fehlerrate im Vergleich zu dem klassischen regelbasierten System, das mit ungleich höherem personellem Aufwand entwickelt worden war. Zur Zeit gibt es keine andere deutsche Forschergruppe mit vergleichbaren Ergebnissen.Die Vorteile des statistischen Ansatzes für die Sprachübersetzung sind analog denen der Spracherkennung, werden aber von den meisten deutschen Verfechtern der (regelbasierten) Künstlichen Intelligenz mit Skepsis gesehen und nicht erkannt. Der statistische Ansatz bietet folgende Vorteile: 1) leistungsfähige Kriterien und Konzepte für das automatische Training der Modellparameter aus Beispieldaten, 2) ein globales Entscheidungskriterium, das nach den Regeln der statistischen Entscheidungstheorie die Zahl der Fehlentscheidungen minimiert. Diese Eigenschaften spielen gerade in der Sprachübersetzung eine wichtige Rolle, da die Regeln nicht in einer expliziten Form vorliegen (unabhängig von der Frage, ob es sie überhaupt gibt). In diesem Vorhaben sollen die Verfahren zur statistischen Übersetzung geschriebener Sprache weiter entwickelt und verbessert werden. Insbesondere sollen dabei (mehrere) Aufgabenstellungen mit praktisch uneingeschränkter Domäne und großem Vokabular (50 000 Wörter und mehr) betrachtet werden. Als ein typisches Beispiel seien die bilingualen Aufzeichnungen (Französisch/Englisch) des kanadischen Parlaments genannt. Trotz der weltweiten Erfolge des statistischen Ansatzes ist das Potential bei weitem noch nicht ausgeschöpft. Dieses Vorhaben soll insbesondere grundlegende Verfahren untersuchen, für die in BMBF- oder EU-Projekten wegen der Benutzerorientierung und der Kurzfristigkeit kein Platz ist und die gute Chancen bieten, die Qualität der erzeugten Übersetzungen deutlich zu verbessern. Die Forschung soll dabei hauptsächlich in zwei Richtungen zielen: komplexere Strukturierungen in den statistischen Modellen zu untersuchen und die statistischen Modelle mit linguistischen Konzepten (wie Morphologie und Grammatiken) zu kombinieren.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung