Detailseite
Projekt Druckansicht

Web Data Analytics and Scientific Workflows

Antragsteller Professor Dr. Ulf Leser
Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2013 bis 2017
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 132320961
 
Erstellungsjahr 2018

Zusammenfassung der Projektergebnisse

Die Menge unstrukturierter Daten ist in den letzten Jahren enorm gewachsen und in diesem Zusammenhang hat sich auch die Analysekomplexität solcher Daten wesentlich erhöht. Informationsextraktion (IE) ist ein bedeutendes Verfahren für viele Anwendungen, in denen unstrukturierte Texte in strukturierte Daten transformiert werden, jedoch erfordert die systematische Anwendung von IE-Techniken auf sehr große Datenmengen hochkomplexe, skalierbare und anpassungsfähige Systeme. Obwohl bereits eine umfangreiche Sammlung von IE-Werkzeugen und Algorithmen für verschiedene IE-Aufgaben existiert, ist die nahtlose und erweiterbare Kombination dieser Werkzeuge in einem skalierbaren end-to-end IE-System immer noch eine große Herausforderung. Dieses Projekt untersuchte genau diese Problemstellung, d.h., es wurde ein anfragebasiertes IE- System innerhalb einer parallelen Datenanalyseplattform erforscht und entwickelt, das für konkrete Anwendungsdomänen konfigurierbar ist und für Textsammlungen im Terabyte-Bereich skaliert. Innerhalb dieses Forschungsfeldes werden vier konsekutive Forschungsfragen bearbeitet. Zuerst werden konfigurierbare, algebraische Operatoren für alle grundlegenden IE-Aufgaben und für Web Text Analytics (WA) definiert. Es wird gezeigt wie diese Operatoren genutzt werden können um komplexe IE-Aufgaben in Form von Queries innerhalb der deklarativen Anfragesprache Meteor auszudrücken. Solche Queries werden in algebraische Data Flows übersetzt, analysiert, logisch und physikalisch optimiert und schließlich in parallele Data Flow- Programme übersetzt, die mit der parallelen Datenanalyseplattform Stratosphere ausgeführt werden. Alle Operatoren werden hinsichtlich ihrer physikalischen, algebraischen und Laufzeiteigenschaften charakterisiert um sowohl das Potenzial als auch die Bedeutung der Optimierung der Ausführungsreihenfolge nicht-relationaler, benutzerdefinierter Operatoren für Data Flows (UDFs) hervorzuheben. Als zweite Forschungsfrage wird der Stand der Technik in der Optimierung nicht-relationaler Data Flows untersucht. Relevante Optimierungstechniken, die in verschiedenen Phasen des Optimierungsprozesses in parallelen Datenanalysesystemen eingesetzt werden, werden vorgestellt und existierende Data Flow-Anfragesprachen werden umfassend hinsichtlich der verfügbaren Optimierungstechniken analysiert. Die Analyse kommt zu dem Schluss, dass eine umfassende Optimierung von UDFs für viele Systeme immer noch eine Herausforderung ist. Basierend auf dieser Beobachtung schließt sich die dritte Forschungsfrage an, in der ein erweiterbarer, logischer Optimierer erforscht und entwickelt wird, der die Semantik von UDFs mit in den Optimierungsprozess mit einbezieht (SOFA). SOFA analysiert eine kompakte Menge von Eigenschaften, die die Semantik der UDFs beschreiben und kombiniert die automatisierte Analyse mit manuellen UDF-Annotationen, um eine umfassende Optimierung von Data Flows zu ermöglichen. SOFA ist in der Lage, beliebige Data Flows aus unterschiedlichen Anwendungsbereichen logisch zu optimieren, was zu erheblichen Laufzeitverbesserungen im Vergleich mit anderen Techniken führt. Als Viertes wird die Anwendbarkeit des vorgestellten IE-Systems auf realweltliche Textsammlungen im Terabyte-Bereich untersucht, in dem Inhalte des World Wide Webs zu gesundheitsrelevanten Themen mit wissenschaftlichen Veröffentlichungen verglichen werden. Im Rahmen dieser Studie wird systematisch die Skalierbarkeit und Robustheit der eingesetzten Methoden und Werkzeuge untersucht sowie die Qualität der extrahierten Daten analysiert um schließlich die kritischsten Herausforderungen beim Aufbau eines IE-Systems für sehr große Datenmenge zu charakterisieren.

Projektbezogene Publikationen (Auswahl)

  • (2010). "Prefix Tree Indexing for Similarity Search and Similarity Join on Genomic Data". Int. Conf. on Scientific and Statistical Database Management, Heideberg, Germany. pp 519-536
    Rheinländer, A., Knobloch, M., Hochmuth, N. and Leser, U.
    (Siehe online unter https://doi.org/10.1007/978-3-642-13818-8_36)
  • (2011). "Search, Adapt, and Reuse: The Future of Scientific Workflows." SIGMOD Record 40(2)
    Cohen-Boulakia, S. and Leser, U.
    (Siehe online unter https://doi.org/10.1145/2034863.2034865)
  • (2012). "Efficient Similarity Search in a Very Large String Sets". Int. Conf. on Scientific and Statistical Database Management, Chania, Greece
    Fenz, D., Lange, D., Rheinländer, A., Naumann, F. and Leser, U.
    (Siehe online unter https://doi.org/10.1007/978-3-642-31235-9_18)
  • (2012). "Meteor/Sopremo: An Extensible Query Language and Operator Model". Workshop on End-to-end Management of Big Data, Istanbul, Turkey
    Heise, A., Rheinländer, A., Leicht, M., Leser, U. and Naumann, F.
  • (2012). "Opening the Black Boxes in Dataflow Optimization". Int. Conf. on Very Large Data Bases Istanbul, Turkey
    Hueske, F., Peters, M., Sax, M. J., Rheinländer, A., Bergmann, R., Krettek, A. and Tzoumas, K.
    (Siehe online unter https://doi.org/10.14778/2350229.2350244)
  • (2014). "The Stratosphere Platform for Big Data Analytics." VLDB Journal 23(6): 939-964
    Alexandrov, A., Bergmann, R., Ewen, S., Freytag , J.-C., Hueske, F., Heise, A., Kao, O., Leich, M., Leser, U., Markl, V., et al.
    (Siehe online unter https://doi.org/10.1007/s00778-014-0357-y)
  • (2014). "Versatile optimization of UDF-heavy data flows with Sofa". SIGMOD, Snowbird, US
    Rheinländer, A., Beckmann, M., Kunkel, A., Heise, A., Stoltmann, T. and Leser, U.
    (Siehe online unter https://doi.org/10.1145/2588555.2594517)
  • (2015). "SOFA: An Extensible Logical Optimizer for UDF-heavy Data Flows " Information Systems 52: 96 - 125
    Rheinländer, A., Heise, A., Hueske, F., Leser, U. and Naumann, F.
    (Siehe online unter https://doi.org/10.1016/j.is.2015.04.002)
  • (2016). "PIEJoin: Towards Parallel Set Containment Joins". Int. Conf. on Scientific and Statistical Database Management, Budapest, Hungary
    Kunkel, A., Rheinländer, A., Schiefer, C., Helmer, S., Bouros, P. and Leser, U.
    (Siehe online unter https://doi.org/10.1145/2949689.2949694)
  • (2016). "Potential and Pitfalls of Domain-Specific Information Extraction at Web Scale". SIGMOD, San Francisco, US
    Rheinländer, A., Lehmann, M., Kunkel, A., Meier, J. and Leser, U.
    (Siehe online unter https://doi.org/10.1145/2882903.2903736)
  • (2017). "Hi-WAY: Execution of Scientific Workflows on Hadoop YARN". Int. Conf. on Extending Database Technology, Venice, Italy
    Bux, M., Brandt, J., Witt, C., Dowling, J. and Leser, U.
    (Siehe online unter https://doi.org/10.5441/002/edbt.2017.87)
  • (2017). "Optimization of Complex Data Flows with User- Defined Functions." ACM Computing Surveys 50(3)
    Rheinländer, A., Leser, U. and Graefe, G.
    (Siehe online unter https://doi.org/10.1145/3078752)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung