Erweiterung eines Abfragemodells für XML-Daten zur interaktiven Exploration
Final Report Abstract
Die Arbeitsgruppe des Antragstellers hatte in Vorarbeiten ein Abfragemodell für XML-Daten konzipiert, implementiert und weiterentwickelt. Dieses Modell ist eher im Bereich Information Retrieval (IR) als im Datenbankumfeld anzusiedeln und versucht, IR-Methoden auf XML-Daten zu verbessern, indem in Anfragen und Antworten nicht nur auf Keywords, sondern auch auf die XML-Struktur referenziert wird. Ein besonderes Kennzeichen ergibt sich aus einer neuartigen visuellen Präsentation der Antworten mit diversen Möglichkeiten zur Exploration des Antwortraums. Die Vorarbeiten konzentrierten sich im Kern zwar um Verbesserungen und Weiterentwicklungen dieses Modells, in diesem Rahmen wurden aber eine ganze Reihe von allgemeinen Beiträgen erarbeitet, die von den theoretischen Grundlagen und Komplexitätsfragen bei Anfragen in Baumdatenbanken über Datenstrukturen und Verfahren zur Steigerung der praktischen Effizienz bis hin zu Fragen der Benutzerinteraktion reichten. Im Schlussabschnitt des Projekts, über den hier berichtet wird, wurde aufbauend auf diesen Vorarbeiten ein System "ViewXML" zur interaktiven XML-Anfrage im Web realisiert, das neue Formen der Benutzerinteraktion anbietet und interessierten Gruppen als Open Source System zur Verfügung steht. Retrievalszenarien mit ViewXML zeichnen sich durch zwei Grundgedanken aus. 1. Nachdem der Benutzer eine Abfrage teilspezifiziert hat, bietet ein GUI viele Möglichkeiten, den sich ergebenden Antwortraum zu explorieren. In diesem Rahmen sieht der Benutzer direkt, welche strukturellen Bedingungen oder Keywordbedingungen als Verfeinerung zur Anfrage hinzugefügt werden können, wobei stets Konsistenz in dem Sinn gewährleistet bleibt, dass sich nie eine leere Antwortmenge ergibt. Die Möglichkeiten zur Exploration sind so konzipiert, dass eine Vertrautheit des Benutzers mit Inhalt und Struktur der Daten nicht erforderlich ist. Die Bewahrung der Konsistenz bedeutet, dass Sackgassen bei der Suche vermieden werden. 2. Die vorhandene XML-Strukturierung der Daten wird ausgenutzt, um eine Art der facettierten Suche zu realisieren, wo der Benutzer Bedingungen zu unterschiedlichen logischen Teilen der XML-Dokumente kombiniert. Beim Hinzufügen neuer Bedingungen zur Anfrage verkleinert sich der resultierende Antwortraum in aller Regel stark, so dass der Benutzer rasch zu einem kleinen Raum interessanter Antworten kommt. Insgesamt wird damit eine zielgerichtete und effiziente interaktive Suche in textlastigen XML-Daten ermöglicht. Das System ViewXML basiert auf industriell getesteter Technologie (Eclipse, Lucene), bezieht in diesem Rahmen aber eigene Vorarbeiten in Gestalt spezieller Indexstrukturen und Knotenbenennungsschemata zur Effizienzsteigerung mit ein. View-XML kann von zwei Webadressen bezogen werden.
Publications
- "The BIRD Numbering Scheme for XML and Tree Databases - Deciding and Reconstructing Tree Relations using Efficient Arithmetic Operations". Proceedings of the 3rd International XML Database Symposium (XSym), 2005
Felix Weigel, Holger Meuss and Klaus U. Schulz
- "Conjunctive Queries over Trees". Journal of the ACM 53(2), 2006
Georg Gottlob, Christoph Koch and Klaus U. Schulz
- "Efficient XML Retrieval with Structural Summaries". Dissertationsschrift, Universität München, 2006
Felix Weigel
- "Enhancing User Interaction and Efficiency with Structural Summaries for Fast and Intuitive Access to XML Databases". In: EDBT 2006 Workshops: Postproceedings of the Workshops at the 10th International Conference on Extending Database Technology (EDBT), Springer LNCS 4254, S. 54-65, 2006
Felix Weigel
- "Caching Schema Information and Intermediate Results for Fast Incremental XML Query Processing in RDBSs". Forschungsbericht, Universität München 2007
Felix Weigel und Klaus U. Schulz
- "ViewXML: Installationsanleitung und Benutzer-Handbuch". Handbuch für das entwickelte Open-Source XML-Abfragesystem ViewXML, Universität München, 2009
Andreas Hauser, Klaus U. Schulz
- "ViewXML: Visual and Interaktive Exploration of XML Data based on Iterative Consistent Refinement". Forschungsbericht, Universität München, 2009
Andreas Hauser, Klaus U. Schulz