Detailseite
Projekt Druckansicht

Digitalisierung / Erschließung von Objekten: Ein prozessoptimiertes Standardverfahren zur Erschließung von digitalen Herbarbelegen

Fachliche Zuordnung Evolution und Systematik der Pflanzen und Pilze
Softwaretechnik und Programmiersprachen
Förderung Förderung von 2014 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 248339659
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Das Projekt StanDAP-Herb (Standard Data Acquisition Process of digital Herbaria) befasste sich mit der Optimierung von Arbeits- und Informationsflüssen zur automatischen und semi-automatischen Inhaltserschließung von Herbarbelegen. Ziel ist dabei, den durch die immer effektiveren Digitalisierungsverfahren entstehenden Rückstand bei der Klassifikation von Belegen und der Erfassung der Etiketteninformation so weit wie möglich aufzuholen. In einer ersten Projektphase wurden verfügbare fach-spezifische und fach-übergreifende Dienste und Softwaresysteme zur automatisierten Inhaltserschließung recherchiert und bezüglich ihrer Leistungsfähigkeit und Integrierbarkeit in Workflowsysteme analysiert. Ein besonderer Fokus lag dabei auf dem Vergleich verschiedener OCR-Verfahren, die für die Vorverarbeitung für Text-Mining Algorithmen angewendet werden. Das Testen der verschiedenen Komponenten wurde auf Basis des am Fraunhofer IOSB betriebenen WebGenesis Workflow Systems durchgeführt, über das auch das Management der zu verarbeitenden Bilddateien abgewickelt wurde. Parallel zu der Analyse der verschiedenen Erschließungsmethoden wurde ein Standardworkflow für die (semi-) automatisierte Verarbeitung von Herbarbildern definiert und als BPMN Model formal spezifiziert. Wertvolle Beiträge zu verfügbaren Diensten und dem generellen Informationsfluss lieferte eine projektbegleitende Arbeitsgruppe mit Kuratoren aus dem deutschsprachigen Raum. Sämtliche Rechercheergebnisse sowie das formale Modell sind über das Projekt-Wiki System zugänglich. Kriterien bei der Wahl einer Softwareplattform für die Implementierung eines integrierten Erschließungs-Workflows waren i) die freie Verfügbarkeit, ii) einfache Erweiterbarkeit mit externen Diensten und iii) die Verankerung in der Entwicklercommunity der Biodiversitätsinformatik. Auf Basis dieser Kriterien wurde die Open Source Plattform OpenRefine gewählt, die bereits breit für das Management von Biodiversitätsdaten eingesetzt wird und mit externen Diensten erweitert werden kann. Für die StanDAP-Herb Plattform wurden Dienste zur Extraktion von wissenschaftlichen Namen, Personen und Datumsangaben sowie Ortsangaben und Geo-koordinaten integriert. Eine Anbindung an das Sammlungssystem JACQ, mit dem derzeit Daten aus 43 Herbarien gepflegt werden wurde beispielhaft auf Basis des Datenstandards ABCD realisiert und kann leicht auf andere Sammlungssysteme ausgedehnt werden. Geplant ist zum Beispiel der Einsatz am Royal Botanic Garden Edinburgh (Sammlungssystem BGBase). Sämtliche im Projekt entwickelten Softwarekomponenten sind frei verfügbar. Der BGBM hat die StanDAP-Herb Plattform in die institutionellen Datenmanagement-Prozesse eingebunden, erweitert das System durch neu verfügbare Dienste und entwickelt die Software aktiv weiter. Angestrebt wird ebenfalls eine Stärkung der internationalen Kooperation auf dem Gebiet der automatisierten Inhaltserschließung.

Projektbezogene Publikationen (Auswahl)

  • (2018) Toward a service-based workflow for automated information extraction from herbarium specimens. Database : the journal of biological databases and curation 2018
    Kirchhoff, Agnes; Bügel, Ulrich; Santamaria, Eduard; Reimeier, Fabian; Röpert, Dominik; Tebbje, Alexander; Güntsch, Anton; Chaves, Fernando; Steinke, Karl-Heinz; Berendsohn, Walter
    (Siehe online unter https://doi.org/10.1093/database/bay103)
  • 2015: Automating Data Capture from Natural History Specimens. Synthesys 3, Work Package 4, Task 1.2., Deliverable 4.2
    Haston, E., Albenga, L., Chagnoux, S., Drinkwater, R., Durrant, J., Gilbert, E., Glöckler, F., Green, L., Harris, D., Holetschek, J., Hudson, L., Kahle, P., King, S., Kirchhoff, A., Kroupa, A., Kvacek, J., Le Bras, G., Livermore, L., Mühlenberger, G., Paul, D., Phillips, S., Smirnova, L., Vacek, F., Walker, S.
  • (2016): Information-Extraction from Herbarium Specimens: The Stan-DAP-Herb Project. SPNC Annual Meeting 20.-25.06.2016, Berlin, Germany
    Kirchhoff, A., Röpert, D., Güntsch, A., Berendsohn, W.G., Steinke, K.-H., Guan, C., Zheng, H., Chaves- S., F., Bügel, U., Santamaria, E.
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung