Detailseite
Projekt Druckansicht

FFMK - Ein schnelles und fehlertolerantes mikrokernbasiertes System für Exa-Scale

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2012 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 230674776
 
FFMK wird -- den Ansatz aus Phase 1 weiterführend -- eine Softwaresystemarchitektur konzipieren, implementieren und bewerten, die die erwarteten Herausforderungen durch Exa-Scale-Systeme angeht: die verstärkte Fehleranfälligkeit von Komponenten und die viel größere Empfindlichkeit gegenüber Zeitschwankungen bei Hardware, Laufzeit- und Betriebssystemen sowie Applikationen. Die Architektur beruht auf einem Mikrokern als Basis eines Knotenbetriebssystems mit einer Kombination spezifischer Laufzeitsysteme mit einem voll ausgebildeten Betriebssystem und auf einem globalen Plattformmanagement, das Partitionen flexibler Größe unterstützt. Applikationen und Laufzeitsysteme werden aufgeteilt in miteinander kooperierende Prozesse, von denen einige direkt auf dem Mikrokern ablaufen, während andere die gesamte Funktionalität des vollen Betriebssystem nutzen. In FFMK wurden für die Konkretisierung die folgenden Komponenten gewählt: Mikrokern L4, eine virtualisierte Variante von Linux, synchron ablaufende Applikationen auf der Basis von MPI, Rücksetzpunkte auf der Basis von hauptspeicherbasiertem, um Erasure-Coding erweitertem XTreemFS, auf Gossip und dezentralen Entscheidungen basierendes Plattformmanagement. Die Integration der Komponenten ist inzwischen fast vollständig. In Phase 1 stießen wir weder bezüglich der Architektur noch der gewählten Komponenten auf fundamentalen, einen Erfolg prinzipiell gefährdende Probleme. In Phase 2 wollen wir den Architekturprototyp vervollständigen, optimieren und das Potential erforschen. Durch die Interaktionen mit Applikationsprojekten aus dem Schwerpunktprogramm erwarten wir tiefer gehendes Verständnis des Verhaltens von Applikationen und Möglichkeiten, deren inhärente Dynamik nach außen sichtbar und nutzbar zu machen. Wir planen Fragen der folgenden Art und Gebiete nachzugehen: Ist ein dezentrales Plattformmanagement auf der Basis teilaktueller Informationen möglich, wie sie mittels Gossip erzielt werden? Können praktisch Vorhersagetechniken genutzt werden, die auf Hinweisen aus Applikationen in Applikationsmetriken (z.B. Partikelanzahlen pro Zelle) beruhen? Stellen sich die Erwartungen bezüglich Schwankungsfreiheit ein? Welches sind die nötigen und nützlichen Raten für Balancierungs- und Rücksetzpunkt-Operationen? Gibt es eine holistische Sicht auf mögliche und notwendige Maßnahmen zur Fehlertoleranz in Rahmen der FFMK-Architektur, die beispielweise Teilverluste von Knoten ohne globale Rekonfiguration abfangen können? Wie gut skalieren Algorithmen, etwa Gossip?
DFG-Verfahren Schwerpunktprogramme
Internationaler Bezug Israel
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung