Project Details
Domänen- und dokumentenadaptive Verfahren zur Nachkorrektur von OCR-Ergebnissen
Applicant
Professor Dr. Klaus U. Schulz
Subject Area
Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term
from 2004 to 2010
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5419670
Die Konvertierung von Papierdokumenten in ein textuelles elektronisches Format ist ein zentraler Schritt bei der Archivierung von Dokumenten in Firmen, Organisationen und im Verlagswesen. Trotz der hohen Leistungsfähigkeit kommerzieller OCR-Systeme ist die verbleibende Fehlerrate bei fehlerkritischen Anwendungen aber oft inakzeptabel. Bislang entwickelte Verfahren zur interaktiven oder automatischen Nachkorrektur von OCR-Ergebnissen tragen zu einer Verbesserung bei, lassen jedoch Domäne und spezifische Eigenschaften des einzelnen Dokuments bei der Auswahl von Korrekturvorschlägen weitgehend unberücksichtigt, worunter die Qualität der Nachkorrektur leidet. Im Projekt sollen Verfahren entwickelt werden, mit denen in dynamischer Weise domänen- und dokumentenspezifische Lexika, Sprach- und Korrekturmodelle berechnet werden können, die thematischen Inhalt, Domäne und sprachliche Eigenschaften des Ausgangsdokuments mitberücksichtigen. Um die Adaptivität und Leistungsfähigkeit von Verfahren der Nachkorrektur bei der Bearbeitung neuer Dokumente zu verbessern, sollen Methoden zur computerunterstützten Optimierung bei der Auswahl, Kombination und Parametereinstellung von Korrekturressourcen weiterentwickelt werden.
DFG Programme
Research Grants