Project Details
Projekt Print View

Annotierte Rätoromanische Chrestomathie (ARC)

Subject Area Applied Linguistics, Computational Linguistics
Term from 2009 to 2017
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 130067612
 
Final Report Year 2016

Final Report Abstract

Das Projekt erzielte in Bezug sowohl auf die sprachlichen Daten als auch auf die erzeugten Tools weitreichende und nachhaltige Ergebnisse. Die gewonnenen Daten betreffen in erster Linie die rätoromanische Forschungs- und die Sprachgemeinschaft; sie werden von beiden auch nachgenutzt. Die Erschließung lexikalischer Ressourcen aller fünf Idiome (Surmiran, Sutsilvan, Sursilvan, Puter und Vallader) war ein wichtiges Zwischenziel des Projektes, das aufgrund des aufwendigen Workflows viele Ressourcen band, nun aber der Sprach- und Forschungsgemeinschaft über das interaktive Wörterbuch Pledari Grond zur Nachnutzung zur Verfügung steht. Die lexikalischen Ressourcen waren - in Kombination mit Generierungsregeln aus rätoromanischen Grammatiken - die Grundlage für die Erzeugung von Vollformenlisten sämtlicher Idiome. Diese Vollformenlisten, die Erstellung eines idiom-übergreifenden Tagsets für das Rätoromanische, das auch die proklitischen Formen abdeckt und die Entwicklung eines Annotationseditors sowohl für tokenbasierte, als auch für satzübergreifende Auszeichnungen (Kapitel- und Sprachgrenzen) waren die benötigten Elemente für die Konzeption eines Workflows, mit dem Texte aller Idiome POS-getaggt werden konnten. Dieser Workflow, bei dem durch die Vollformenlisten vorausgezeichnete Tokens durch die Sprachgemeinschaft disambiguiert wurden, um damit ein Tagger-Trainingskorpus zu erlangen, mit dem die restlichen Texte getaggt werden können, wurde bereits für ein Idiom (Sursilvan) erprobt und produktiv eingesetzt. Die Ergebnisse werden durch das Nachfolgeprojekt UpCASE nach und nach in die Biblioteca Digitala überführt werden. Sie sind die Basis für weitere geplante Vorhaben. Die erzeugten Daten sind Open Access, die erzeugte Tools Open Source. Die erstellte Software ist nicht nur an die rätoromanischen Daten gebunden, sondern kann generisch eingesetzt werden. Eine Nachnutzung ergibt sich damit für kollaborative, webbasierte Unternehmungen über bündnerromanische Anwendungen hinaus. Webbasierte Arbeitsformen eignen sich speziell für Minderheitensprachen, insofern sie kostengünstige Lösungen anbieten (im Kontrast zu Printlösungen bei kleinen Auflagen) und auch Sprecher zusammenführen, die sich nicht (mehr) in den angestammten kompakten Sprachgebieten aufhalten.

Publications

  • (2013): Collaboratively Building Corpora - a Case Study for Romansh. In: Gurevych, Iryna, Biemann, Chris, Zesch, Torsten (Eds.): GSCL 2013 ProceedingsLanguage Processing and Knowledge in the Web, the proceedings of the 25th Conference of the German Society for Computational Linguistics (GSCL 2013). Berlin. Springer
    Claes Neuefeind
  • (2014): The Digital Romantsch Chrestomathy – Towards an Annotated Corpus of Romansch. In: In: M. Zampieri & S. Diwersy (Eds.): Nonstandard Data Sources in Corpus-based Research. (= ZSM-Studien Bd 5) Aachen: Shaker
    Claes Neuefeind
  • (2015) Die Rätoromanische Chrestomathie – digital und annotiert. In: Romanica et Balcanica. Wolfgang Dahmen zum 65. Geburtstag, hgg. v. Thede Kahl, Johannes Kramer, Elton Prifti. Jenaer Beiträge zur Romanistik Band 7, S. 265-280
    Jürgen Rolshoven, Florentin Lutz
  • (2015): “Rumantschia Digitala - das Pledari Grond 2.0.“ In: Società Filologica Friulana (Ed.) - Colloquium retoromanistich 2014, Cormons
    Neuefeind, C. und Telli, D.
  • (2016) Rumantschia Digitala – Moderne bündnerromanische Lexikographie. In: Ad Limina Alpium, hg. v. Federico Vicario, Atti del VI Colloquium Retoromanistich, Cormons.: S. 389-408. Biblioteca di studi linguistici e filologici 18. Società Filologica Friulana, Udine 2016
    Florentin Lutz, Jürgen Rolshoven
  • (2016). ARC: Annotierte Rätoromanische Chrestomathie. In: Ad Limina Alpium, hg. v. Federico Vicario,Atti del VI Colloquium Retoromanistich, Cormons. S. 13-28, : Biblioteca di studi linguistici e filologici 18., Società Filologica Friulana, Udine
    Francisco Mondaca, F. und Mihail Atanassov
  • 2016. Rumantschia Digitala: Digitale Ressourcen des Bündnerromanischen. In: Romanisch entdecken – lernen – erleben . Babylonia 2016., Nr.1, S.35-39
    Jürgen Rolshoven
 
 

Additional Information

Textvergrößerung und Kontrastanpassung