Detailseite
Projekt Druckansicht

Grammatikinduktion auf Basis von Parallelkorpora: PTOLEMAIOS (Parallel-Text-based Optimization for Language learning - Exploiting Multilingual Alignment for the Induction of Syntactic grammars)

Antragsteller Professor Dr. Jonas Kuhn
Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung von 2005 bis 2010
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5444307
 
Im PTOLEMAIOS-Projekt soll eine neue Methode zur Erstellung von Computer-Grammatiken entwickelt werden, die es erlaubt, in kurzer Zeit und mit geringem Entwicklungsaufwand einen robusten Parser mittlerer Analysetiefe für eine neue Sprache zu entwickeln. Als Ressourcen werden lediglich ein Parallelkorpus benötigt, das übersetzte Texte in der Sprache und mindestens einer anderen Sprache enthält, sowie eine einfache manuelle Strukturannotation für eine verhältnismäßig kleine Teilmenge von Satz-Paaren oder -Tupeln aus diesem Parallelkorpus. Mehrsprachige Parallelkorpora sind heute für eine Vielzahl von Sprachen und domänenspezifische Subsprachen leicht zu erhalten. Zur Erstellung der Grammatiken werden Techniken aus dem maschinellen Lernen und Repräsentationsmodelle aus der theoretischen Linguistik verwendet. Das zugrundeliegende Grammatikmodell ist ein spezielles statistisches Modell, das auf dem Vergleich von Generierungsalternativen für eine zugrundeliegende Bedeutungsrepräsentation basiert. Im Lernprozess wird versucht, die sprachspezifische Gewichtung unterschiedlicher Faktoren zu bestimmen, die die beobachteten Sprachdaten am besten vorhersagt. Um mit geringen Mengen von handannotierten Daten auskommen zu können, wird keine echte Bedeutungsrepräsentation angenommen, sondern eine recht oberflächennahme Konsens-Strukturrepräsentation. Für diese gemeinsame 'Pseudo-Bedeutungspräsentation', die den verschiedensprachlichen Versionen eines Satzes aus dem Parallelkorpus zugeordnet wird, lässt sich ein automatisches Annotationsverfahren leichter trainieren.
DFG-Verfahren Emmy Noether-Nachwuchsgruppen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung