Reference Corpus Middle Low German / Low Rhenish (1200 - 1650)
Final Report Abstract
Mit dem „Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200–1650)“ wird die Schriftkultur des niederdeutschen Sprachraums im Spätmittelalter und in der frühen Neuzeit erschlossen, die für die Geschichte Nordeuropas von höchstem sprach-, literatur- und kulturhistorischen Interesse ist. Das Korpus macht aus der breiten Überlieferung eine systematische Auswahl öffentlich zugänglich und stellt die Texte, die auf Grundlage der originalen Handschriften und Drucke transkribiert und grammatisch annotiert werden, in elektronischer Form allgemein für vielfältige Nutzungsmöglichkeiten zur Verfügung. Die Textauswahl ist so getroffen, dass sie die historische Sprach-, Literatur- und Kulturentwicklung in der räumlichen Untergliederung sowie in der textsortenspezifischen Auffächerung nachzuzeichnen vermag. Die Parameter Raum, Zeit und Feld der Schriftlichkeit bilden die Grundstruktur des Korpus. Es ist über das Such- und Visualisierungsprogramm ANNIS (Potsdam) veröffentlicht. Zusätzlich sind die Daten im TEI-Format, das ergänzende Annotationen ermöglicht, über das Hamburger Zentrum für Sprachkorpora zugänglich gemacht. In der finalen Korpusversion ReN 1.0 wurden insgesamt 180 Texte publiziert (14.08.2019), darunter 120 annotierte Texte und 60 weitere transkribierte Texte ohne Annotation. Die annotierten Texte umfassen knapp 1.399.387 Token, die transkribierten Texte 968.910 Token. Alle Texte sind vorlagengetreu transkribiert und wortweise annotiert (Wortart, Flexionsmorphologie, Lemmatisierung). Das fertige Korpus stellt ein Arbeitsinstrument insbesondere für grammatische Analysen auf allen Sprachebenen dar. Dies ist u. a. für die Erarbeitung einer neuen wissenschaftlichen mittelniederdeutschen Grammatik von großer Bedeutung. Zudem werden durch die korpuslinguistische Aufbereitung lexikologische Untersuchungen wie bspw. die Ermittlung von Wortfamilien im Deutschen unterstützt. Die angestrebte Verfügbarkeit im TEI-Format ermöglicht weitere Annotationen durch Nutzer des Korpus für spezifischere Anwendungen. Das nach den Parametern Zeit, Raum und Feld der Schriftlichkeit strukturierte Referenzkorpus bietet eine Grundlage für variationssensitive Untersuchungen zum Mittelniederdeutschen. Für die Mehrzahl der erfassten Sprachlandschaften liegen annotierte Texte aus verschiedenen Zeiträumen vor, sodass diachrone Analysen möglich sind. Hierfür bieten sich vor allem das Nordniedersächsische sowie das Ostelbische und das Ostfälische an, aber auch das Baltische und das Westfälische. Diatopische Untersuchungen auf der Basis annotierter Texte sind lückenlos für sämtliche Sprachlandschaften für die zweite Hälfte des 15. Jahrhunderts möglich, etwas eingeschränkter auch für jeweils die erste Hälfte des 15. und 16. Jahrhunderts. Um korpusübergreifende Suchanfragen in ANNIS zu ermöglichen, wurde im ReN ein Metadatenschema erstellt, das auf den Kategorien der Referenzkorpora Mittelhochdeutsch und Frühneuhochdeutsch basiert. Neben der Erstellung des Referenzkorpus konnten nachhaltig nutzbare Ressourcen für die Annotation und Lemmatisierung des Mittelniederdeutschen und Niederrheinischen geschaffen werden. Dafür sind Tools erarbeitet worden, die in zukünftigen Projekten beim Korpusaufbau eingesetzt werden können: SpellvarDetection (zur automatischen Identifikation von Schreibvarianten: https://github.com/fab-bar/SpellvarDetection); TextGammaTool (zur Berechnung von text-Gamma, dem im Projekt entwickelten Inter-Annotator-Agreement-Maß: https://github.com/fab-bar/TextGammaTool); Anpassungen von Lemming (zur Verbesserung der automatischen Lemmatisierung: https://github.com/fab-bar/cistern).
Publications
- (2014): Annotating descriptively incomplete language phenomena. In: Proceedings of LAW VIII – The 8th Linguistic Annotation Workshop, August 2014, Dublin, S. 99–104
Barteld, Fabian / Sarah Ihden / Ingrid Schröder / Heike Zinsmeister
(See online at https://dx.doi.org/10.3115/v1/W14-4915) - (2014): Das digitale ‚Referenzkorpus Mittelniederdeutsch / Niederrheinisch (ReN)‘. In: Vilmos Ágel / Andreas Gardt (Hrsg.): Paradigmen der Sprachgeschichtsschreibung (Jahrbuch für germanistische Sprachgeschichte 5). Berlin, Boston, S. 165–175
Peters, Robert / Norbert Nagel
(See online at https://doi.org/10.1515/jbgsg-2014-0012) - (2014): Das Referenzkorpus: Neue Perspektiven für die mittelniederdeutsche Grammatikographie. In: Vilmos Ágel / Andreas Gardt (Hrsg.).: Paradigmen der Sprachgeschichtsschreibung (Jahrbuch für germanistische Sprachgeschichte 5). Berlin, Boston, S. 150–164
Schröder, Ingrid
(See online at https://doi.org/10.1515/jbgsg-2014-0011) - (2015): Die digitale Lemmaliste für das Mittelniederdeutsche im DFG-Projekt “Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200–1650)”. In: Korrespondenzblatt des Vereins für niederdeutsche Sprachforschung 122, Heft 2, S. 95–100
Kleymann, Verena / Norbert Nagel / Robert Peters
- (2015): Korpuslinguistische Studien zur mittelniederdeutschen Syntax. In: Markus Hundt / Alexander Lasch (Hrsg.): Deutsch im Norden (Jahrbuch für germanistische Sprachgeschichte 6). Berlin, Boston, S. 249–275
Dreessen, Katharina / Sarah Ihden
(See online at https://doi.org/10.1515/jbgsg-2015-0016) - (2015): Mittelniederdeutsche Schragen des Baltikums. Eine textlinguistische Untersuchung Tallinner und Rigaer Zunftordnungen des 14. bis 16. Jahrhunderts. In: Niederdeutsches Jahrbuch. Jahrbuch des Vereins für niederdeutsche Sprachforschung 139, S. 7–36
Dreessen, Katharina / Sarah Ihden
- (2015): Unsupervised regularization of historical texts for POS tagging. In: Proceedings of the Workshop on Corpus- Based Research in the Humanities, Dezember 2015, Warschau, S. 3–12
Barteld, Fabian / Ingrid Schröder / Heike Zinsmeister
- (2016): Dealing with word-internal modification and spelling variation in data-driven lemmatization. In: Proceedings of the 10th SIGHUM Workshop on Language Technology for Cultural Heritage, Social Sciences, and Humanities (LaTeCH), August 2016, Berlin, S. 52–62
Barteld, Fabian / Ingrid Schröder / Heike Zinsmeister
(See online at https://dx.doi.org/10.18653/v1/W16-2106) - (2016): text-gamma – Inter-annotator agreement for categorization with simultaneous segmentation and transcription-error correction. In: Proceedings of the 13th Conference on Natural Language Processing (KONVENS), September 2016, Bochum, S. 27–37
Barteld, Fabian / Ingrid Schröder / Heike Zinsmeister
- (2017): Das Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200-1650) – Korpusdesign, Korpuserstellung und Korpusnutzung. In: Anja Becker/ Albrecht Hausmann (Hrsg.): Mittelniederdeutsche Literatur. Mitteilungen des deutschen Germanistenverbandes 64, Heft 3, S. 226–241
Barteld, Fabian / Katharina Dreessen / Sarah Ihden / Ingrid Schröder
(See online at https://doi.org/10.14220/mdge.2017.64.3.226) - (2017): Das Referenzkorpus Mittelniederdeutsch/ Niederrheinisch (1200-1650). In: Niederdeutsches Jahrbuch. Jahrbuch des Vereins für niederdeutsche Sprachforschung 140, S. 35-42
Peters, Robert
- (2017): Detecting spelling variants in non-standard texts. In: Proceedings of the Student Research Workshop at the 15th Conference of the European Chapter of the Association for Computational Linguistics, April 2017, Valencia, S. 11–22
Barteld, Fabian
(See online at https://doi.org/10.18653/v1/E17-4002) - (2017): Historische Sprachdaten als Herausforderung für die manuelle und automatische Annotation: Das Referenzkorpus Mittelniederdeutsch/Niederrheinisch (1200-1650). In: Niederdeutsches Jahrbuch. Jahrbuch des Vereins für niederdeutsche Sprachforschung 140, S. 43-57
Schröder, Ingrid / Fabian Barteld / Katharina Dreessen / Sarah Ihden
- (2017): Kasusmarkierung und Belebtheit im Niederdeutschen. In: Ahlers, Timo / Oberholzer, Susanne / Riccabona, Michael / Stoeckle, Philipp (Hrsg.): Deutsche Dialekte in Europa. Perspektiven auf Variation, Wandel und Übergänge (Kleine und regionale Sprachen 3). Hildesheim/Zürich/New York, S. 53–73
Dreessen, Katharina
- (2017): Relativsätze im Mittelniederdeutschen. Einblicke in eine korpuslinguistische Studie. In: Ahlers, Timo / Oberholzer, Susanne / Riccabona, Michael / Stoeckle, Philipp (Hrsg.): Deutsche Dialekte in Europa. Perspektiven auf Variation, Wandel und Übergänge (Kleine und regionale Sprachen 3). Hildesheim/Zürich/New York, S. 101–121
Ihden, Sarah
- (2018). HiNTS: A Tagset for Middle Low German. In: Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Mai 2018, S. 3940–3945
Barteld, Fabian / Sarah Ihden / Katharina Dreessen / Ingrid Schröder
- (2018): Variations on the theme of variation: Dealing with spelling variation for fine-grained POS tagging of historical texts In: Proceedings of the 14th Conference on Natural Language Processing (KON- VENS 2018), September 2018, Wien, S. 202–212
Barteld, Fabian / Ingrid Schröder / Heike Zinsmeister
- (2019). Analyse syntaktischer Phänomene mit dem Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200-1650). In: Dücker, Lisa / Hartmann, Stefan / Szczepaniak, Renata (Hrsg.): Historische Korpuslinguistik. Berlin, Boston: de Gruyter (Jahrbuch für germanistische Sprachgeschichte, 10), S. 26–-281
Barteld, Fabian / Sarah Ihden / Katharina Dreessen / Ingrid Schröder
(See online at https://doi.org/10.1515/jbgsg-2019-0015) - (2019): Token-based spelling variant detection in Middle Low German texts. In: Language Resources & Evaluation (2019)
Barteld, Fabian / Chris Biemann / Heike Zinsmeister
(See online at https://doi.org/10.1007/s10579-018-09441-5) - (2019): Zur Entwicklung der Verbstellung im mittelniederdeutschen Relativsatz. In: Dücker, Lisa / Hartmann, Stefan / Szczepaniak, Renata (Hrsg.): Historische Korpuslinguistik. Berlin, Boston: de Gruyter (Jahrbuch für germanistische Sprachgeschichte, 10), 282–302
Ihden, Sarah
(See online at https://doi.org/10.1515/jbgsg-2019-0016)