Detailseite
Projekt Druckansicht

HySim: Hybrid-parallele Ähnlichkeitssuche für die Analyse großer genomischer und proteomischer Daten

Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung Förderung von 2016 bis 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 329350978
 
Das Datenwachstum in den modernen Lebenswissenschaften ist enorm und stark steigend. Die rechnergestützte Analyse dieser Daten ist somit eine Herausforderung und ein hoch aktives Forschungsgebiet. Eine populäre Strategie zur Analyse von Massendaten in vielen Anwendungsgebieten ist der Einsatz von Big Data Technologien. Die Charakteristiken von typischen biologischen Datensätzen und ihre beabsichtigte Verwendung unterscheiden sich jedoch von den meisten anderen Big Data Anwendungsgebieten. Die Verarbeitung biologischer Daten benötigt häufig komplexere Analysetechniken als sie von Big Data Technologien geleistet werden können. Deren angewandte Algorithmen oder Heuristiken sind häufig auf lineare oder sublineare Laufzeiten beschränkt, die nicht immer eine gute Approximation der wahren Ergebnisse liefern können. Obwohl in vielen anderen Anwendungsgebieten akzeptabel, ist dies in den Lebenswissenschaften jedoch selten der Fall. Beispielsweise tolerieren typische biomedizinische Anwendungen nur eine vergleichsweise kleine Anzahl von Klassifizierungsfehlern. In den rechnergestützten Lebenswissenschaften tendiert man deshalb zur Benutzung konventioneller Ansätze aus dem Hochleistungsrechnen (HPC). HPC ist jedoch mehr auf Probleme mit hohen Rechenaufwand (big compute) ausgelegt als auf solche mit hohen Speicheranforderungen (big data). Die Besonderheiten biologischer Datensätze und die Komplexität der benötigten Datenanalyse stellen somit Herausforderungen dar, für die beide Ansätze nicht perfekt angepasst sind. Eine hybride Kombination aus Big Data mit HPC bietet deshalb einen vielversprechenden Lösungsansatz. Dieser Ansatz kann beispielsweise Ideen aus dem Bereich Big Data Algorithmen mit effizienten HPC Methoden verbinden, um starke Skalierbarkeit für die Verarbeitung biologsicher Massendaten zu erreichen. Dieses Projekt verfolgt die Untersuchung solcher hybrider Methoden zur Analyse großer genomischer und proteomischer Datenmengen mit hoher Effizienz und hoher Genauigkeit. Unser Fokus liegt hierbei auf der Ähnlichkeitssuche; eine wichtige algorithmische Technik in sowohl Genomik als auch Proteomik. Die entsprechenden Datensätze werden hierbei von zwei Typen von Hochdurchsatztechnologien generiert: Sequenzierer der nächsten Generation (NGS) und Massenspektrometer (MS). Wir verfolgen insbesondere drei Ziele: (i) Entwurf von effizienten und akkuraten Big Data Algorithmen zur Ähnlichkeitssuche in NGS Daten mit Anwendungen in der Metagenomik und Fehlerkorrektur basierend auf LSH (locality sensitive hashing) Techniken; (ii) Entwurf von effizienten und akkuraten Big Data Algorithmen zur Ähnlichkeitssuche in MS Daten mit Anwendungen in der Proteomik basierend auf LSH Techniken; (iii) Entwicklung effizienter Implementierungen dieser neuen Algorithmen auf einer hybriden Big Data/HPC Plattform mit starker Skalierbarkeit für große NGS und MS Datensätze.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung