Project Details
Computerlinguistische Implementierung einer großen, robusten Grammatik für Urdu/Hindi im Kontext paralleler Grammatikentwicklung
Applicant
Professorin Dr. Miriam Butt
Subject Area
General and Comparative Linguistics, Experimental Linguistics, Typology, Non-European Languages
Term
from 2009 to 2014
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 77719491
In diesem Projekt sollen eine computerlinguistische Grammatik und begleitende Ressourcen (Dependenzbank, Morphologie) für Urdu/Hindi entwickelt werden. ‘Urdu’ und ‘Hindi’ bezeichnen dieselbe Sprache, deren Sprecher aber durch eine politische Grenze getrennt sind und sich unterschiedlicher Schriftsysteme bedienen (ähnlich wie in dem ehemaligen Jugoslawien, wo aus Serbokroatisch aus politischen Gründen 3 Sprachen wurde: Bosnisch/Serbisch/Kroatisch). Urdu/Hindi ist zur Zeit die dritt meist gesprochene Sprache der Welt, es fehlen jedoch computerlinguistische Ressourcen für eine robuste maschinelle Verarbeitung. Hauptforschungsfragen sind: 1) Inwieweit lassen sich etablierte Methoden zur multilingualen Grammatikentwicklung, die hauptsächlich in bezug auf europäische Sprachen und dem Japanischen entwickelt wurden, auf die südasiatischen Sprachstrukturen des Urdu/Hindi anwenden? Zugrundegelegt wird die Methodologie des Par- Gram (Parallel Grammar) Projektes. 2) Inwieweit können Urdu und Hindi tatsächlich mittels derselben Analysen und Technologien verarbeitet werden? 3) Untersuchung und Anwendung statistischer Lernmethoden für Desambiguierungsverfahrung und eine Beschleunigung der Verarbeitungszeit.
DFG Programme
Research Grants