Project Details
Projekt Print View

"Questions by St. Anselm about the Lord's Passion" --- digitization, analysis and edition of all German versions (14th-16th c.)

Subject Area Applied Linguistics, Computational Linguistics
Term from 2010 to 2018
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 179943363
 
Final Report Year 2018

Final Report Abstract

Das geförderte Projekt befasste sich mit einem Korpus bestehend aus rund 60 verschiedenen frühneuhochdeutschen Überlieferungsvarianten des Textes “St. Anselmi Fragen an Maria” mit insgesamt rund 400.000 Tokens. Die Varianten unterscheiden sich v.a. bezüglich ihrer Entstehungszeit (14.-16. Jh) und ihres Dialekts (von Oberdeutsch bis Niederdeutsch). Ziel des Projekts war es, mit Hilfe (semi-)automatischer Methoden die Texte auf ihre Gemeinsamkeiten und Unterschiede hin zu untersuchen. Dazu wurde das Korpus zunachst aufbereitet und mit verschiedenen linguistischen Merkmalen angereichert (zwei Normalisierungsebenen, Lemma, Wortart, Flexionsmorphologie). Im zweiten Schritt wurden die Texte auf Basis ihrer Annotationen miteinander verglichen. Dabei kamen verschiedene Verfahren zum Einsatz: Vergleiche basierend auf manuell erstellten Alignierungen; Vergleiche basierend auf linguistischen Profilen bestehend aus Buchstaben-, Phon- bzw. Wortart-Ngrammen; Vergleiche basierend auf Kognaten, die mit Hilfe der normalisierten Wortformen automatisch bestimmt wurden. In der zweiten Studie konnten beispielsweise die Texte bestimmter Sprachräume automatisch korrekt lokalisiert werden. In der dritten Studie wurden automatisch Abbildungsregeln abgeleitet, die charakteristische Unterschiede verschiedener Dialekträume repräsentieren. Schließlich wurde (in Zusammenarbeit mit einem germanistischen Partnerprojekt) der Text in einer digitalen Edition online veröffentlicht, zudem liegt das annotierte Korpus für Suchanfragen über das Korpussuchtool ANNIS bereit und kann in einem XML-Format frei heruntergeladen werden. Weitere Ressourcen, die im Rahmen des Projekts erstellt wurden und frei verfügbar sind, schließen ein: Norma, ein Tool für die Normalisierung historischer Schreibweisen; das Annotationstool CorA; das Tool ANNISvis zur geographischen Visualisierung der Anfrageergebnisse. Die Links zu samtlichen Ressourcen können über die Projekt-Homepage gefunden werden: https: //www.linguistics.rub.de/anselm/.

Publications

  • CorA: A web-based annotation tool for historical and other non-standard language data. In Proceedings of the EACL Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), pages 86–90, Gothenburg, Sweden, 2014
    Marcel Bollmann, Florian Petran, Stefanie Dipper, and Julia Krasselt
    (See online at https://doi.org/10.3115/v1/W14-0612)
  • Creating synopses of ‘parallel’ historical manuscripts and early prints. Alignment guidelines, evaluation, and applications. In Historical Corpora, Challenges and Perspectives, number 5 in CLIP. Narr, Tübingen, 2015
    Stefanie Dipper, Julia Krasselt, and Simone Schultz-Balluff
  • Evaluating inter-annotator agreement on historical spelling normalization. In Proceedings of the ACL Linguistic Annotation Workshop (LAW X), Berlin, 2016
    Marcell Bollmann, Stefanie Dipper, and Florian Petran
    (See online at https://doi.org/10.18653/v1/W16-1711)
  • Geographical visualization of search results in historical corpora. In Proceedings of the Workshop on Language Technology Resources and Tools for Digital Humanities (LT4DH), pages 94–100, Osaka, Japan, 2016
    Florian Petran
  • Improving historical spelling normalization with bi-directional LSTMs and multi-task learning. In Proceedings of the 26th International Conference on Computational Linguistics (COLING), Osaka, Japan, 2016
    Marcel Bollmann and Anders Søgaard
  • Investigating diatopic variation in a historical corpus. In Proceedings of the Fourth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial), pages 36–45, EACL, Valencia, Spain, 2017
    Stefanie Dipper and Sandra Waldenberger
    (See online at https://doi.org/10.18653/v1/W17-1204)
  • Learning attention for historical text normalization by learning to pronounce. In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 332–344, Vancouver, Canada, 2017
    Marcel Bollmann, Joachim Bingel, and Anders Søgaard
    (See online at https://doi.org/10.18653/v1/P17-1031)
  • Normalization of Historical Texts with Neural Network Models. PhD thesis, Ruhr-Universität Bochum, 2018. Published in: Bochumer Linguistische Arbeitspapiere (BLA), vol. 22
    Marcel Bollmann
 
 

Additional Information

Textvergrößerung und Kontrastanpassung