Constraints über RDF-Graphen: Checking und semantische Ausführung von SPARQL-Anfragen.
Final Report Abstract
Das Umfeld des Projektes ist das vom World Wide Web Consortium (W3C) standardisierte Resource Description Framework (RDF) zusammen mit der ebenfalls vom W3C standardisierten Anfragesprache über RDF-Graphen SPARQL, die eine deklarative auf Graphmustern basierende Anfrageformulierung erlaubt. Thema des Projektes war die Untersuchung der Rolle von Constraints über RDF für eine semantik-basierte Ausführung von Anfragen in SPARQL. Im Projekt wurden allgemeine theoretische Grundlagen für die Überprüfung von Constraints bzgl. eines gegebenen RDF-Datensatzes und für eine auf Constraints basierende semantische Optimierung von SPARQL-Ausdrücken geschaffen. Der bekannte State-of-the-Art wurde um mächtigere hinreichende Bedingungen für die Terminierung des Chase-Algorithmus erweitert. Weiter wurde eine umfassende Optimierungstheorie für die Auswertung von SPARQL-Ausdrücken geschaffen und neue Komplexitätsresultate der Auswertung von SPARQL erarbeitet. Constraints über RDF können in SPARQL-Anfragen übersetzt werden - ein Constraint ist genau dann erfüllt, wenn die entsprechende SPARQL-Anfrage ein leeres Ergebnis liefert. Um eine effiziente Auswertung von SPARQL-Ausdrücken auf massiven RDF-Datensätzen zu erreichen, wurden Cluster-Architekturen für die Auswertung von SPARQL-Ausdrücken untersucht. Es wurden neue Techniken für die Auswertung von Join-Ausdrücken mittels MapReduce erarbeitet und deren Skalierung nachgewiesen. Eine Unterstützung einer interaktiven Anfrageauswertungen innerhalb des Hadoop-Frameworks wurde ebenfalls untersucht und demonstriert, dass im Vergleich zu MapReduce-basierten Verfahren erhebliche Effizienzgewinne realisiert werden können. Zur Formulierung von RDF-Constraints wurde eine eigene Constraintsprache entwickelt und ein Prototyp für das Überprüfen von Constraints implementiert. Der Prototyp ist als Download frei verfügbar.
Publications
- Foundations of SPARQL query optimization, in Proceedings of the 13th International Conference on Database Theory, Lausanne, Switzerland, 2010
Michael Schmidt, Michael Meier and Georg Lausen
- Semantic query optimization in the presence of types, in Proceedings of the Twenty-Ninth ACM SIGMOD- SIGACT-SIGART Symposium on Principles of Database Systems, PODS, Indianapolis, Indiana, USA, 2010
Michael Meier, Michael Schmidt, Fang Wei and Georg Lausen
- Map-Side Merge Joins for Scalable SPARQL BGP Processing, in Proceedings of the 5th IEEE International Conference on Cloud Computing Technology and Science, CloudCom 2013, Bristol, United Kingdom, December 2-5, 2013
Martin Przyjaciel-Zablocki, Alexander Schätzle, Eduard Skaley, Thomas Hornung and Georg Lausen
- RDF Constraint Checking, in Proceedings of the Workshops of the EDBT/ICDT 2015 Joint Conference (EDBT/ICDT), Brussels, Belgium, 2015
Peter M. Fischer, Georg Lausen, Alexander Schätzle and Michael Schmidt