Detailseite
InVenod - interaktive Verarbeitung nicht OCR-geeigneter Dokumente
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2008 bis 2014
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 62297683
Im Rahmen des Vorgänger-Projektes VENOD (Verarbeitung nicht OCR-geeigneter Dokumente) ist eine Methodik entwickelt worden, um einen dokumenteigenen Font aus dem Digitalisat eines historischen gedruckten Werkes mit Hilfe von Verfahren der Dokumentbildverarbeitung zu generieren. Die Idee dahinter besteht darin, dass es Schriften insbesondere in historischen Dokumenten gibt, die sich jeglichen OCR-Verfahren entziehen.Dem geplanten INVENOD-Projekt liegt die Erkenntnis des VENOD-Projektes zugrunde, dass nicht nur typische dokumenteigene Fonts zu handhaben sind, sondern tiefer liegende Probleme der Segmentierung von Zeichen und deren Klassifizierung ebenso dokumenteigen sind. Denn die Dokumentseiten eines Werkes oder gar verschiedener Werke, die von derselben Druckerei gedruckt wurden, leiden in der Regel unter denselben Problemen, weisen etwa ähnliche Verzerrungen auf So liegt es nahe, die VENODSche Philosophie, einen dokumenteigenen Font zu generieren, einen Schritt weiterzutreiben: dokumenteigene Probleme werden identifiziert, eventuell mit Hilfe von Nutzerinteraktionen aufgelöst und diese verbesserten Lösungen schließlich auf das verbleibende Dokument übertragen.INVENOD soll die Verarbeitung nicht OCR-geeigneter Dokumente von den einzelnen Zeichen auf das gesamte Dokument ausdehnen und so Schriften, die sich in jedem Textverarbeitungsprogramm nutzen lassen erzeugen, die Segmentierung vervollständigen und die Ausgabeverfahren sollen das Originaldokument besser in neue Formate transformieren, da auch die Lesereihenfolge korrigiert werden kann. Der automatische VENOD-Prozess wird so erweitert, dass er an geeigneten Stellen Korrekturen erlaubt und damit deutlich mehr Dokumente erfolgreich bearbeitet werden können. Da die dokumenteigenen Schriften in dokumentunabhängige Schriften gewandelt werden, was einer Texterkennung (OCR) entspricht, lassen sich die reproduzierten Dokumente auf herkömmliche Weise durchsuchen und dem Informationsmanagement zugänglich machen.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)