Coordinated Funding Initiative for the Further Development of Optical Character Recognition Processes
Final Report Abstract
In den VD wurden in den letzten Jahren und Jahrzehnten große Anstrengungen unternommen, die im deutschen Sprachraum publizierten Drucke zu erfassen und zu digitalisieren. Nun sollen die Bilddigitalisate auch einer Text- und Strukturerkennung unterzogen werden, die vom OCR-D-Projekt technisch und konzeptionell vorbereitet wird. Auf Grundlage des erstellten OCR-D-Funktionsmodells wurden die Bedarfe zur Entwicklung bzw. Weiterentwicklung von Werkzeugen im OCR-Prozess ermittelt und die Voraussetzungen für die Umsetzung dieser Desiderate geschaffen. Dazu wurden mehrere Referenz- und Trainingskorpora erstellt, die zahlreiche für die Text- und Strukturerkennung relevante Phänomene frühneuzeitlicher Texte abdecken. Ergänzt werden diese durch umfassende Richtlinien, die Standards für die Erstellung von GT festlegen. Die benötigten Werkzeuge wurden in der zweiten Projektphase von acht MP entwickelt, die vom KP umfassend, u.a. durch regelmäßige Absprachen und die Veranstaltung mehrerer gemeinsamer Workshops, betreut wurden. Um die Nutzbarkeit und Interoperabilität der verschiedenen OCR-D-Komponenten zu gewährleisten, hat das KP auf Grundlage etablierter Standards zudem Spezifikationen definiert27 und mit dem OCR-D/core Framework eine Referenzimplementierung in Python zur Verfügung gestellt. Der in dieser Gemeinschaftsarbeit entstandene OCR-D-Prototyp ist als Open Source Software zur kostenfreien Nutzung und Weiterentwicklung unter der Apache 2.0 Lizenz auf der Plattform GitHub bereitgestellt. In Tests sowohl des KP selbst anhand der vorhandenen GT, als auch durch neun Pilotbibliotheken um die Jahreswende 2019/20 wurden die Robustheit des Prototypen bestätigt und gute Erkennungsergebnisse erzielt. Auch wenn die OCR-D-Software durch ihr derzeitiges Stadium als Prototyp noch nicht alle Anforderungen der Pilotbibliotheken erfüllen kann, hat sich doch gezeigt, dass die geplanten Funktionen und Grundprinzipien der Software mit den Bedürfnissen der Bibliotheken übereinstimmen. Damit sind die grundlegenden Voraussetzungen dafür geschaffen, dass OCR-D von (VD-)Bibliotheken und weiteren Einrichtungen akzeptiert und nach dessen Implementierung produktiv eingesetzt wird. Neben dem entwickelten Prototypen hat das OCR-D-KP mit seinen Vorschlägen zur Überarbeitung der DFG-Praxisregeln sowie einem ersten Konzept zur Volltexttransformation der VD zudem eine konzeptionelle Basis für die geplante umfassende Volltexterkennung der VD-Titel geschaffen, die mit allen Beteiligten diskutiert wurde und in der Folge weiter verbessert und abgestimmt werden kann.
Publications
- Labelling OCR Ground Truth for Usage in Repositories, in: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, Brüssel 09.05.2019, S. 3–8
Boenig, Matthias; Baierer, Konstantin; Hartmann, Volker; Federbusch, Maria; Neudecker, Clemens
(See online at https://doi.org/10.1145/3322905.3322916) - OCR(-D) und Kitodo, Kitodo Anwenderworkshop, Hamburg 19.11.2019
Baierer, Konstantin; Engl, Elisabeth; Luetgen, Michael
- OCR-D: An end-to-end open source OCR framework for historical documents, in: EuropeanaTech Insight (13), 31.07.2019
Neudecker, Clemens; Baierer, Konstantin; Federbusch, Maria; Würzner, Kay-Michael; Boenig, Matthias; Herrmann, Elisa; Hartmann, Volker
- OCR-D: An end-to-end open-source OCR framework for historical documents, in: Proceedings of the 3rd International Conference on Digital Access to Textual Cultural Heritage, Brüssel 09.05.2019, S. 53–58
Neudecker, Clemens; Baierer, Konstantin; Federbusch, Maria; Würzner, Kay-Michael; Boenig, Matthias; Herrmann, Elisa; Hartmann, Volker
(See online at https://doi.org/10.1145/3322905.3322917) - okralact – a multi-engine Open Source OCR training system, 5. internationaler Workshop zu Historical Document Imaging and Processing HIP 2019 als Teil der ICDAR 2019, Sydney 20.09.2019
Baierer, Konstantin; Dong, Rui; Neudecker, Clemens
(See online at https://doi.org/10.1145/3352631.3352638) - okralact – a multi-engine Open Source OCR training system, in: Proceedings of the 5th International Workshop on Historical Document Imaging and Processing, Sydney 20.09.2019, S. 25–30
Baierer, Konstantin; Dong, Rui; Neudecker, Clemens
(See online at https://doi.org/10.1145/3352631.3352638) - Die OCR-D-Workflowengine, 2. Workshop Retrodigitalisierung zu Effizienz und Qualitätssicherung in Digitalisierungsworkflows, Hannover 18.02.2020
Engl, Elisabeth
- OCR-D in the wild: Erfahrungen und Erkenntnisse aus der Praxisphase mit Bibliotheken, vbib2020, 26.05.2020
Engl, Elisabeth
(See online at https://doi.org/10.5446/47151) - Volltexte – die Zukunft alter Drucke. Bericht zum Abschlussworkshop des OCR-D-Projekts, in: o-bib 7 (2), S. 1-4. Online
Engl, Elisabeth; Boenig, Matthias; Baierer, Konstantin; Hartmann, Volker; Neudecker, Clemens
(See online at https://doi.org/10.5282/o-bib/5600) - Volltexttransformation frühneuzeitlicher Drucke - Ergebnisse und Perspektiven des OCR-D- Projekts, DHd 2020, 05.03.2020
Baierer, Konstantin; Neudecker, Clemens
(See online at https://doi.org/10.5281/zenodo.3666690) - Volltexttransformation frühneuzeitlicher Drucke - Ergebnisse und Perspektiven des OCR-D-Projekts, in: DHd 2020: Spielräume - Digital Humanities zwischen Modellierung und Interpretation. Konferenzabstracts, S. 244-247
Boenig, Matthias; Engl, Elisabeth; Baierer, Konstantin; Hartmann, Volker; Neudecker, Clemens
(See online at https://doi.org/10.5281/zenodo.3666690)