SFB 1404:
FONDA – Grundlagen von Workflows für die Analyse großer naturwissenschaftlicher Daten
Fachliche Zuordnung
Informatik, System- und Elektrotechnik
Biologie
Geowissenschaften
Materialwissenschaft und Werkstofftechnik
Medizin
Physik
Förderung
Förderung seit 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 414984028
Entdeckungen in den Naturwissenschaften basieren zunehmend auf der computergestützten Analyse großer Datensätze, die von komplexen Datenanalyseworkflows (DAWs) auf einer verteilten Infrastruktur durchgeführt werden. Die meisten Forschungsarbeiten zu DAWs konzentrieren sich die Minimierung der Laufzeit auf einer bestimmten Infrastruktur, was zu Lösungen führt, die nur schwer zu warten und zu erstellen sind. In vielen Forschungsprojekten ist der entscheidende Faktor aber nicht die Laufzeit einer Analyse, sondern deren Entwicklungszeit. Der SFB FONDA erforscht daher neue Architekturen, Sprachen und Algorithmen, um die menschliche Produktivität bei der Entwicklung, Wartung oder Wiederverwendung von DAWs zu erhöhen. In der ersten Förderperiode fokussierte sich FONDA dabei auf drei spezifische Eigenschaften von DAWs, die in direktem Zusammenhang mit Produktivität stehen: Portabilität, Anpassbarkeit und Zuverlässigkeit. FONDA hat viel beachtete Ergebnisse in diesen Bereichen erzielt, wie z.B. verbesserte Portabilität durch flexible Schnittstellen zwischen Infrastrukturkomponenten, verbesserte Anpassbarkeit durch intelligentes Scheduling und verbesserte Zuverlässigkeit durch „Contract-Driven“ DAW-Entwicklung. In der zweiten Phase wird FONDA drei Einschränkungen aus Phase I aufheben und sich die daraus ergebenden Fragestellungen in jeweils einem Forschungsschwerpunkt erforschen. Erstens lösen wir uns von der Annahme, dass DAWs in einem einzigen Rechenzentrum ausgeführt werden, in dem alle notwendigen Daten vorliegen. Wir untersuchen stattdessen verteilte DAWs, deren Teilworkflows in verschiedenen Rechenzentren laufen und dort lokal vorhandene Daten einbeziehen. Zweitens erweitern wir unsere Ausrichtung in Hinblick auf den Lebenszyklus von DAWs mit einer neuen Research Area, in der Verbesserungen der Benutzerfreundlichkeit von DAW-Systemen erforscht werden. Drittens betrachten wir nicht mehr nur einzelne Workflows, sondern auch deren Evolution und Komposition, um die technische Nachhaltigkeit zu verbessern. Da die menschliche Produktivität in der Datenanalyse auch zunehmend durch hohe Energiekosten bedroht wird, werden wir auch Techniken zur Verbesserung der ökologischen Nachhaltigkeit erforschen. Neben den wissenschaftlichen Erfolgen konnte die erste Phase von FONDA auch bereits mehrere langfristige Entwicklungen anstoßen. Mit der Einrichtung des neuen HPC@HU Services hatte unser SFB einen nachhaltigen strukturellen Einfluss auf die Sprecheruniversität. Die Anerkennung der Bedeutung unseres Forschungsthemas spiegelt sich in zahlreichen Neuberufungen in der Region wider, die eine passgenaue Erweiterung unserer PI-Gruppe ermöglichen. Wir sind stolz auf den außergewöhnlich hohen Anteil an Frauen unter unseren Promovierenden (38%) und freuen uns auf das geplante Buch zu "Workflows for Large-Scale Scientific Data Analysis", für das mehr als 100 Autorinnen und Autoren aus 15 Ländern Beiträge zugesagt haben und das im Sommer 2024 als Open Access erscheinen wird.
DFG-Verfahren
Sonderforschungsbereiche
Laufende Projekte
-
A01 - Validierung verteilter DAWs mittels Ereignisanfragen
(Teilprojektleiterinnen / Teilprojektleiter
Schweikardt, Nicole
;
Weidlich, Matthias
)
-
A02 - Energie-Optimierung von Workflows in der Bioinformatik
(Teilprojektleiter
Leser, Ulf
;
Reinert, Knut
)
-
A03 - Verbesserung der Robustheit rechnergestützter Workflows in der Materialwissenschaft
(Teilprojektleiterinnen / Teilprojektleiter
Draxl, Claudia
;
Grunske, Lars
;
Pavone, Pasquale
)
-
A05 - DAWs für effizientes Lernen anhand begrenzt annotierter Daten in der biomedizi-nischen Bildgebung
(Teilprojektleiterinnen
Kainmüller, Dagmar
;
Ritter, Kerstin
)
-
A07 - Semantische Erzeugung und Validierung interagierender Workflows in der computergestützten Materialwissenschaft
(Teilprojektleiterinnen / Teilprojektleiter
Grunske, Lars
;
Hickel, Tilmann
;
Lamprecht, Anna-Lena
)
-
B01 - CO2 effizientes Scheduling verteilter Workflows mit Unsicherheiten
(Teilprojektleiter
Kao, Odej
;
Meyerhenke, Henning
)
-
B04 - Proaktive Netzwerk, IO und Speichersteuerung für Workflows auf geteilten Infrastrukturen
(Teilprojektleiter
Reinefeld, Alexander
;
Scheuermann, Björn
;
Schintke, Florian
)
-
B05 - Transparente Multi-Center Datenanalyseworkflows für die Erdbeobachtung
(Teilprojektleiter
Hostert, Patrick
;
Leser, Ulf
)
-
B06 - Ganzheitliche Energieprofile für Datenanalyse-Workflows
(Teilprojektleiter
Böhm, Matthias
;
Grunske, Lars
;
Rabl, Tilmann
)
-
B07 - Effiziente Ausführung von DAWs zur Vorhersage von Waldsterblichkeit unter Verwendung inkrementeller Daten
(Teilprojektleiter
Herold, Martin
;
Hostert, Patrick
;
Kao, Odej
)
-
C01 - Kollaborative Entwicklung von explorativen DAWs im Neuroimaging
(Teilprojektleiterinnen / Teilprojektleiter
Deniz, Ph.D., Fatma
;
Kehr, Birte
;
Weidlich, Matthias
)
-
C02 - Frühphase des Workflow-Entwurfs: Von kollaborativer wissenschaftlicher Problemlösung zu DAW-Spezifikationen
(Teilprojektleiterinnen / Teilprojektleiter
Lamprecht, Anna-Lena
;
Mendling, Jan
;
Weidlich, Matthias
)
-
C03 - Nutzerzentrierter Entwurf für Workflowsprachen
(Teilprojektleiter
Grunske, Lars
;
Kosch, Thomas
)
-
MGKS02 - Integriertes Graduiertenkolleg
(Teilprojektleiter
Grunske, Lars
;
Mendling, Jan
;
Reinert, Knut
)
-
S01 - Testsysteme und Repositorien
(Teilprojektleiter
Dreyer, Malte
;
Kao, Odej
;
Leser, Ulf
)
-
Z - Zentrales Administrationsprojekt
(Teilprojektleiter
Leser, Ulf
)
Abgeschlossene Projekte