Detailseite
Compute- und Storage Cluster
Fachliche Zuordnung
Grundlagen der Biologie und Medizin
Förderung
Förderung in 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 469073465
Um Daten aus modernen Hochdurchsatzverfahren zu speichern und effizient zu prozessieren, ist unter anderem ein Speicher und CPU Compute Cluster notwendig. Mit dem hier beantragten Cluster sollen hauptsächlich metagenomische Daten (das gesamte Erbgut aller Bakterien in einer bestimmten Probe) sowie Einzelzell-Forschungsdaten (single-cell RNA seq und spatial single cell transcriptomics) gespeichert und prozessiert werden. Diese beiden Datentypen sind momentan im Umfeld molekularer Daten die Typen mit dem größten Volumen. Der ursprüngliche Compute Cluster der 2013 angeschafft wurde, ist ausgelegt zur Verarbeitung von molekularen Daten, die aus Microarray Technologie gewonnen werden. Diese Technologie wird in den beteiligten Gruppen inzwischen nicht mehr eingesetzt und wurde vollständig durch Sequenzierung ersetzt. Sequenzierungsdaten benötigen allerdings deutlich mehr Speicher und Rechenaufwand. Die Bioinformatik generiert mit ihren Partnern, unter anderem dem Helmholtz-Institut für Pharmazeutische Forschung Saarland (HIPS) und mehreren Abteilungen des Universitätsklinikums des Saarlandes (UKS) jährlich etwa 2.000 Metagenome mit einer Tiefe von 15 Gigabasen je Probe. Die Humangenetik und die Bioinformatik der Universität des Saarlandes generieren und prozessieren mit ihren Partnern jährlich zusätzlich etwa 2 Millionen RNA-Einzelzell-Profile mit sogenannten Drop-Seq Methoden. In Pilotprojekten wird momentan neben RNA-seq auch ATAC-seq durchgeführt und RNA-Profile mit subzellulärer Auflösung erhoben. Ein einzelnes Single-Cell-Experiment mit 50.000 Zellen – das in 2 Tagen sequenziert wird – benötigt ca. 3 TB Speicherplatz und 20 Tage reine Primärdaten-Auswertezeit. Während der Analyse der Daten werden teilweise Zwischenergebnisse erzeugt, die umfassender sind als die Primärdaten selbst. Das beantragte Großgerät soll mindestens 100 Experimente parallel und redundant speichern können und die Bearbeitungszeit von 20 Tagen auf etwa 3 Tage verkürzen. Dazu benötigt das System mindestens 1.700 TB Brutto-Speicherkapazität (zum Beispiel 6 x 16 x 18 GB HDDs) und mindestens 512 Rechenkerne (zum Beispiel 16 x 32-Kern-Prozessoren) mit einer Taktfrequenz zwischen 2.5 und 3 GHz. Da die durchgeführten Analysen generell speicherintensiv sind, sollen 8 TB RAM vorhanden sein. Ein entscheidender Faktor ist es, sogenanntes Swapping zu vermeiden, also das vielfache Kopieren von Daten zwischen RAM und Festplatte. Daher werden insgesamt mindestens 16 TB an Pufferspeicher und 100 TB an schnellem Datenspeicher (solid state disks; SSDs) für alle Prozessoren zusammen benötigt. Weiterhin ist ein 100 Gb Netzwerk – bestehend aus Netzwerkkarten und einem entsprechenden Gb Switch – essenziell, damit das Kopieren der Daten nicht zum Bottleneck wird. Zusätzlich wird ein sogenannter Metadaten-Server benötigt, der Jobs und Prozesse optimal auf die einzelnen Komponenten verteilt. Der Metadaten-Server soll mit vier 32 Kern-Prozessoren und 2 TB RAM ausgestattet sein.
DFG-Verfahren
Forschungsgroßgeräte
Großgeräte
Compute- und Storage Cluster
Gerätegruppe
7000 Datenverarbeitungsanlagen, zentrale Rechenanlagen
Antragstellende Institution
Universität des Saarlandes
Leiter
Professor Dr. Andreas Keller