Detailseite
Optimierter Einsatz von OCR-Verfahren – Tesseract als Komponente im OCR-D-Workflow
Antragstellerin
Dr. Sabine Gehrlein
Förderung
Förderung von 2018 bis 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394264782
Tesseract ist eine freie Software für die Texterkennung (optische Zeichenerkennung, OCR). Diese Software zeichnet sich durch eine mehr als 30-jährige stetige Weiterentwicklung aus. In der Gruppe Open Source Software gehört Tesseract zu den Programmen mit den besten Erkennungsraten.Seit Ende 2016 unterstützt Tesseract auch die Texterkennung mittels künstlicher neuronaler Netze (LSTM) und ist damit technologisch aktuell.Das Projekt erweitert bzw. ergänzt Tesseract um Schnittstellen für die Einbindung in einen OCR Gesamt-Workflow gemäß OCR-D Modulbeschreibung (Kommandozeile, API, REST-basierter Webservice). Darüber hinaus ist unser Ziel, die Stabilität, Performance und praktische Einsetzbarkeit weiter zu verbessern.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich
Stefan Weil