Detailseite
Computerlinguistische Implementierung einer großen, robusten Grammatik für Urdu/Hindi im Kontext paralleler Grammatikentwicklung
Antragstellerin
Professorin Dr. Miriam Butt
Fachliche Zuordnung
Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung
Förderung von 2009 bis 2014
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 77719491
In diesem Projekt sollen eine computerlinguistische Grammatik und begleitende Ressourcen (Dependenzbank, Morphologie) für Urdu/Hindi entwickelt werden. ‘Urdu’ und ‘Hindi’ bezeichnen dieselbe Sprache, deren Sprecher aber durch eine politische Grenze getrennt sind und sich unterschiedlicher Schriftsysteme bedienen (ähnlich wie in dem ehemaligen Jugoslawien, wo aus Serbokroatisch aus politischen Gründen 3 Sprachen wurde: Bosnisch/Serbisch/Kroatisch). Urdu/Hindi ist zur Zeit die dritt meist gesprochene Sprache der Welt, es fehlen jedoch computerlinguistische Ressourcen für eine robuste maschinelle Verarbeitung. Hauptforschungsfragen sind: 1) Inwieweit lassen sich etablierte Methoden zur multilingualen Grammatikentwicklung, die hauptsächlich in bezug auf europäische Sprachen und dem Japanischen entwickelt wurden, auf die südasiatischen Sprachstrukturen des Urdu/Hindi anwenden? Zugrundegelegt wird die Methodologie des Par- Gram (Parallel Grammar) Projektes. 2) Inwieweit können Urdu und Hindi tatsächlich mittels derselben Analysen und Technologien verarbeitet werden? 3) Untersuchung und Anwendung statistischer Lernmethoden für Desambiguierungsverfahrung und eine Beschleunigung der Verarbeitungszeit.
DFG-Verfahren
Sachbeihilfen