Detailseite
ProvDS: Probabilistisches Management von Herkunftsinformation für unvollständige Linked-Data-Ströme
Antragsteller
Professor Dr. Manfred Hauswirth
Fachliche Zuordnung
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung
Förderung von 2017 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 323223507
Herkunftsinformation ("Provenance") beschriebt wie Information, z.B. Abfrageergebnisse, aus potentiell nicht kuratierten Datenquellen, unter möglicher Anwendung von Rückgewinnungsalgorithmen und anderen Verarbeitungsschritten erstellt wurde. In offenen verteilten Systemen ist Herkunftsinformation zur Lösung vieler Problemstellungen wie beispielsweise der Quantifizierung von "Glaubwürdigkeit" von Information angewendet worden, unter anderem aber auch, um den Einfluss der Weitergabe fehlerbehafteter Information für die Qualität von Ergebnissen in großen verteilten Informationssystemen zu verstehen und zu quantifizieren. In solchen Umgebungen werden Operationen von unabhängigen Teilnehmern über Systemgrenzen hinweg durchgeführt, die fehlerbehaftete Information erzeugen bzw. weiterleiten können. Diese Fehler können im Zuge der weiteren Weitergabe vergrößert werden und eine Abschätzung und Quantifizierung der möglichen Fehler ist essentiell für die Aussagekraft, Gültigkeit und Qualität von Resultaten. Bei Linked-Data-Strömen wird die Lösung dieses Problems noch aufwendiger, da es sich um potentiell fehlerbehaftete Ströme diskreter Daten handelt. Im Projekt ProvDS wollen wir nun Lösungsansätze für die Erstellung, Verwaltung und Interpretation von Herkunftsinformation für unvollständige Linked-Data-Ströme erforschen und prototypisch umsetzen. Wir schlagen Datenverwaltungsansätze vor, die Herkunftsinformation gemeinsam mit Rückgewinnungstechniken berücksichtigen und Herkunftsinformation integral im System verankern. Im Unterschied zu Ansätzen für statische Daten, die von Vollständigkeit und vollständiger Zugreifbarkeit der verarbeiteten Daten ausgehen, fokussieren sich unsere Ansätze auf unvollständige und dynamische Daten, für die die derzeitigen Ansätzen nicht anwendbar sind. Unsere Ansätze sind so ausgelegt, dass sie dem Benutzer exakte, aktuelle Herkunftsinformation ("provenance trace"), Herkunftsinformation für wiederhergestellte Information sowie Kompressions- und Speichermodelle für Herkunftsinformation zu bieten. Die Genauigkeit und Effizienz der zu entwickelnden Algorithmen und Ansätze wird mit realistischen, offenen und großen Linked-Data- und Zeitreihen-Datensätzen (strukturierte und unstrukturierte Datensätze) getestet und ausgewertet werden.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Schweiz
Partnerorganisation
Schweizerischer Nationalfonds (SNF)
Mitverantwortlich
Professor Dr. Philippe Cudre-Mauroux