Detailseite
Ein vielschichtiger Korpus für Altgriechisch und Latein
Antragsteller
Giuseppe Giovanni Antonio Celano, Ph.D.
Fachliche Zuordnung
Angewandte Sprachwissenschaften, Computerlinguistik
Förderung
Förderung seit 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 408121292
Opera Graeca Adnotata (OGA) und Opera Latina Adnotata (OLA) sind die größten Open Access und skalierbaren morphosyntaktisch annotierten Korpora für Altgriechisch und Latein. Beide verwenden einen Standoff-Annotation-Ansatz, bei dem Token und morphologische und syntaktische Labels in einer Graphenstruktur miteinander verbunden werden. Die Korpora bauen auf den Daten der Ancient Greek and Latin Treebank auf, die verwendet wurden, um einen neuronalen Parser (COMBO) zu trainieren und anschließend die morphosyntaktische Annotation (der meisten) der altgriechischen und lateinischen Texte der Perseus Digital Library zu automatisieren. Derzeit enthält OGA 489 annotierte Dateien (6.488.472 Token und 347.517 Sätze), während OLA 316 (6.755.191 Token und 411.329 Sätze) enthält. Das vorliegende Projekt zielt darauf ab, diese Korpora mit drei weiteren Annotationsschichten anzureichern, die als grundlegend für jedes literarische Korpus gelten: (i) eine orthographische Normalisierungsschicht, (ii) eine phonemische Transkriptionsschicht und (iii) eine vollständige Lemmaschicht. Sowohl die altgriechische als auch die lateinische Orthographie haben sich im Laufe der Zeit aufgrund von Unterschieden in Rechtschreibkonventionen und Dialekten erheblich verändert. Dies erfordert das Hinzufügen einer orthografischen Normalisierungsschicht, die es ermöglicht, Token mit unterschiedlicher Schreibweise nach einer gemeinsamen Form zu gruppieren, wodurch eine Verbindung zwischen ihnen hergestellt wird, die ihren Abruf erleichtert. Eine phonemische Transkriptionsschicht ordnet jedem Token eine phonemische Transkription zu. Da orthographische Systeme Eigenheiten enthalten, dienen phonemische Transkriptionen dem Zweck, einen zuverlässigen Vergleich zwischen Wörtern entlang sowohl der synchronen als auch der diachronen Achse zu ermöglichen. Eine vollständige Lemmaschicht paart einen Token mit einem Wörterbuchlemma, das aus seinem vollständigen Paradigma und nicht nur seiner ersten Komponente besteht, wie dies in den meisten Baumbanken derzeit üblich ist. Nur ein vollständiges Lemma liefert vollständige Informationen über die Morphologie eines Tokens, indem es ein schnelles Wiederauffinden oder Generieren seiner verwandten gebeugten Wortformen und die Vermeidung von Mehrdeutigkeiten, die Ein-Wort-Lemma aufwerfen könnte, ermöglicht.
DFG-Verfahren
Sachbeihilfen