Project Details
Grammatikinduktion auf Basis von Parallelkorpora: PTOLEMAIOS (Parallel-Text-based Optimization for Language learning - Exploiting Multilingual Alignment for the Induction of Syntactic grammars)
Applicant
Professor Dr. Jonas Kuhn
Subject Area
General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term
from 2005 to 2010
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5444307
Im PTOLEMAIOS-Projekt soll eine neue Methode zur Erstellung von Computer-Grammatiken entwickelt werden, die es erlaubt, in kurzer Zeit und mit geringem Entwicklungsaufwand einen robusten Parser mittlerer Analysetiefe für eine neue Sprache zu entwickeln. Als Ressourcen werden lediglich ein Parallelkorpus benötigt, das übersetzte Texte in der Sprache und mindestens einer anderen Sprache enthält, sowie eine einfache manuelle Strukturannotation für eine verhältnismäßig kleine Teilmenge von Satz-Paaren oder -Tupeln aus diesem Parallelkorpus. Mehrsprachige Parallelkorpora sind heute für eine Vielzahl von Sprachen und domänenspezifische Subsprachen leicht zu erhalten. Zur Erstellung der Grammatiken werden Techniken aus dem maschinellen Lernen und Repräsentationsmodelle aus der theoretischen Linguistik verwendet. Das zugrundeliegende Grammatikmodell ist ein spezielles statistisches Modell, das auf dem Vergleich von Generierungsalternativen für eine zugrundeliegende Bedeutungsrepräsentation basiert. Im Lernprozess wird versucht, die sprachspezifische Gewichtung unterschiedlicher Faktoren zu bestimmen, die die beobachteten Sprachdaten am besten vorhersagt. Um mit geringen Mengen von handannotierten Daten auskommen zu können, wird keine echte Bedeutungsrepräsentation angenommen, sondern eine recht oberflächennahme Konsens-Strukturrepräsentation. Für diese gemeinsame 'Pseudo-Bedeutungspräsentation', die den verschiedensprachlichen Versionen eines Satzes aus dem Parallelkorpus zugeordnet wird, lässt sich ein automatisches Annotationsverfahren leichter trainieren.
DFG Programme
Independent Junior Research Groups