Detailseite
Projekt Druckansicht

Optimierter Einsatz von OCR-Verfahren – Tesseract als Komponente im OCR-D-Workflow

Antragstellerin Dr. Sabine Gehrlein
Förderung Förderung von 2018 bis 2020
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 394264782
 
Tesseract ist eine freie Software für die Texterkennung (optische Zeichenerkennung, OCR). Diese Software zeichnet sich durch eine mehr als 30-jährige stetige Weiterentwicklung aus. In der Gruppe Open Source Software gehört Tesseract zu den Programmen mit den besten Erkennungsraten.Seit Ende 2016 unterstützt Tesseract auch die Texterkennung mittels künstlicher neuronaler Netze (LSTM) und ist damit technologisch aktuell.Das Projekt erweitert bzw. ergänzt Tesseract um Schnittstellen für die Einbindung in einen OCR Gesamt-Workflow gemäß OCR-D Modulbeschreibung (Kommandozeile, API, REST-basierter Webservice). Darüber hinaus ist unser Ziel, die Stabilität, Performance und praktische Einsetzbarkeit weiter zu verbessern.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Mitverantwortlich Stefan Weil
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung