Detailseite
SmartER Affiliations: Harvesting und Extraktion von Affiliationsdaten zur Erweiterung von offenen Repositorien
Antragstellerinnen / Antragsteller
Professorin Dr.-Ing. Brigitte Mathiak; Dr. Florian Reitz; Professor Dr. Ansgar Scherp
Fachliche Zuordnung
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 515537520
DBLP bietet Nutzern freien Zugang zu Metadaten von Publikationen aus dem Bereich der Informatik und stellt Links zu den entsprechenden Volltexten bereit. Die qualitativ hochwertigen Metadaten umfassen Autorennamen sowie Publikationstitel und -organe und, wenn möglich, eine eindeutige Identifikation der Autoren. Derzeit indexiert DBLP 6,1 Millionen Dokumente von 3 Millionen verschiedenen Autoren. Um diesen Service weiter zu verbessern, wird die DBLP-Datenbank Affiliationsdaten, also Institutsangaben zu den Autoren, aufnehmen. Wir haben drei Anwendungsfälle erarbeitet, in denen DBLP-Nutzer von Affiliationsdaten profitieren. Das betrifft sowohl den direkten Nutzen durch neue Suchfunktionen als auch den indirekten Nutzen, der sich aus einer verbesserten Autoren-Disambiguierung und exakteren Datenbasis für szientometrische Studien ergibt. Das Ziel dieses Projekts ist die Entwicklung und Evaluierung eines E-Research-Werkzeugs, das alle drei Anwendungsfälle umsetzt und Affiliationen in DBLP zu Entitätstypen erster Ordnung macht. Diese Herausforderung gehen wir in vier Schritten an: 1. Daten harvesten 2. Metadaten extrahieren 3. Daten sowohl in das Backend als auch das Frontend von DBLP integrieren und 4. Daten der wissenschaftlichen Community und Allgemeinheit zur Verfügung stellen. Wir entwickeln einen Harvester, der bibliografische Metadaten automatisch aus verschiedenen strukturierten wie unstrukturierten Internetquellen einsammelt, wie zum Beispiel RDF im Web der Daten, Volltext-PDFs, Webseiten und Schnittstellen von Verlagen. Die Inhalte werden heruntergeladen und die Metadaten extrahiert und bereinigt. Mittels Named Entity Recognition werden Institutszugehörigkeiten aus den PDFs extrahiert und dann mit externen Wissensbasen abgeglichen, wie z. B. Listen bekannter Institutionen. Die so gewonnenen Metadaten werden in die DBLP-Datenbank aufgenommen und redaktionell bearbeitet, d. h. durch einen Datenkurator von Hand geprüft, ggf. bearbeitet, und bestätigt. Die aus dieser wiederholten redaktionellen Überprüfung resultierenden Rückmeldungen werden verwendet, um die auf maschinellem Lernen beruhenden Modelle zum Harvesting und zur Extraktion der Affiliationsdaten zu verbessern. Die DBLP-Suche wird um die neuen Affiliationsdaten erweitert und die Erweiterung durch Nutzerstudien evaluiert. Die Daten werden zudem in die Disambiguierungs- und Qualitätssicherungsprozesse des DBLP-Redaktionssystems eingespeist. Darüber hinaus werden alle Projektergebnisse und Datensätze gemäß der FAIR-Prinzipien öffentlich zugänglich gemacht. Dies ist Teil der DBLP-Strategie, die darauf abzielt, die Forschergemeinschaft mit zuverlässigen und qualitativ hochwertigen Datensätzen zu unterstützen, die weltweit bereits von Tausenden von Forschern und Software-Entwicklern genutzt werden.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)