Project Details
Statistical methods for machine translation of written language
Applicant
Professor Dr.-Ing. Hermann Ney
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2003 to 2008
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5400874
Das Ziel dieses Vorhabens ist es, Methoden zur statistischen Textübersetzung (d.h. Übersetzung geschriebener im Unterschied zu gesprochener Sprache) zu erforschen, zu implementieren und diese Methoden experimentell an konkreten Übersetzungsaufgaben zu evaluieren.Innerhalb der vergangenen Jahre sind an der RWTH bereits Verfahren und Systeme für die Übersetzung gesprochener und geschriebener Sprache in verschiedenen geförderten Projekten (Verbmobil/BMBF, Eutrans/EU, Giza++/US-NSF) mit großem Erfolg entwickelt worden. In den unparteiischen Evaluierungen (Deutschland: Verbmobil, international: USDARPA) konkurrierender Systeme nahmen die RWTH-Systeme jeweils die Spitzenposition ein. Z.B. in der Verbmobil-Evaluierung hatte das RWTH-System eine um einen Faktor 2 niedrigere Fehlerrate im Vergleich zu dem klassischen regelbasierten System, das mit ungleich höherem personellem Aufwand entwickelt worden war. Zur Zeit gibt es keine andere deutsche Forschergruppe mit vergleichbaren Ergebnissen.Die Vorteile des statistischen Ansatzes für die Sprachübersetzung sind analog denen der Spracherkennung, werden aber von den meisten deutschen Verfechtern der (regelbasierten) Künstlichen Intelligenz mit Skepsis gesehen und nicht erkannt. Der statistische Ansatz bietet folgende Vorteile: 1) leistungsfähige Kriterien und Konzepte für das automatische Training der Modellparameter aus Beispieldaten, 2) ein globales Entscheidungskriterium, das nach den Regeln der statistischen Entscheidungstheorie die Zahl der Fehlentscheidungen minimiert. Diese Eigenschaften spielen gerade in der Sprachübersetzung eine wichtige Rolle, da die Regeln nicht in einer expliziten Form vorliegen (unabhängig von der Frage, ob es sie überhaupt gibt). In diesem Vorhaben sollen die Verfahren zur statistischen Übersetzung geschriebener Sprache weiter entwickelt und verbessert werden. Insbesondere sollen dabei (mehrere) Aufgabenstellungen mit praktisch uneingeschränkter Domäne und großem Vokabular (50 000 Wörter und mehr) betrachtet werden. Als ein typisches Beispiel seien die bilingualen Aufzeichnungen (Französisch/Englisch) des kanadischen Parlaments genannt. Trotz der weltweiten Erfolge des statistischen Ansatzes ist das Potential bei weitem noch nicht ausgeschöpft. Dieses Vorhaben soll insbesondere grundlegende Verfahren untersuchen, für die in BMBF- oder EU-Projekten wegen der Benutzerorientierung und der Kurzfristigkeit kein Platz ist und die gute Chancen bieten, die Qualität der erzeugten Übersetzungen deutlich zu verbessern. Die Forschung soll dabei hauptsächlich in zwei Richtungen zielen: komplexere Strukturierungen in den statistischen Modellen zu untersuchen und die statistischen Modelle mit linguistischen Konzepten (wie Morphologie und Grammatiken) zu kombinieren.
DFG Programme
Research Grants