Detailseite
Vertrauenswürdiges Multiskalen-Mannigfaltigkeitslernen für genomische und transkriptomische Daten
Antragsteller
Dr. Dmitry Kobak
Fachliche Zuordnung
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 471473934
In den letzten Jahren sind große hochdimensionale Datensätze in der Biologie alltäglich geworden. Zum Beispiel produziert die Einzelzell-Transkriptomik routinemäßig Datensätze mit Stichprobengrößen von Hunderttausenden von Zellen und einer Dimensionalität von Zehntausenden von Genen. In ähnlicher Weise können genomische Datensätze Hunderttausende von Genomen von Menschen umfassen, die mit Millionen von Einzelnukleotid-Polymorphismen profiliert sind. Ein charakteristisches Merkmal solcher Datensätze ist ihre hierarchische Organisation, mit biologisch bedeutsamen Strukturen auf mehreren Ebenen. Solche Datensätze erfordern adäquate computergestützte Methoden zur Datenanalyse, einschließlich der unüberwachten Datenexploration, um den Forschern eine kompakte Darstellung und sinnvolle Nutzung ihrer Daten zu ermöglichen. In der Einzelzell-Transkriptomik ist es üblich, niedrig-dimensionale Einbettungen der Daten mit Algorithmen wie z.B. t-SNE oder UMAP zu generieren, aber die existierenden Methoden reichen nicht aus, um die hierarchische Struktur der Daten darzustellen. Während sie sich durch die Erhaltung der lokalen Struktur auszeichnen, sind sie nicht in der Lage, die größere, globale Struktur, die oft in den Daten vorhanden ist, zu rekapitulieren, was eine korrekte Interpretation der Einbettung erschwert. In diesem Projekt ist es unser erstes Ziel, eine Dimensionalitätsreduktionsmethode zu entwickeln, die in der Lage ist, entscheidende Eigenschaften von hochdimensionalen Daten zu erhalten, wie z. B. die lokale Clusterstruktur, kontinuierliche Trajektorien und die globale hierarchische Organisation. Das zweite Ziel ist es, eine Reihe von Qualitätsmetriken zu entwickeln, die es uns ermöglichen, bestehende und neue Algorithmen an einer Reihe von anspruchsvollen Datensätzen zu messen. Schließlich ist das dritte Ziel, diese Maschinerie an ultra-hochdimensionale Daten aus der Populationsgenomik anzupassen. Auf der technischen Ebene werden wir uns auf die k-nearest-neighbour Graphen und das Graph Coarse-Graining stützen. Unsere Arbeit wird für praktische Anwendungen in der Biologie und Bioinformatik nützlich sein, während sie gleichzeitig von großem Interesse für den Manifold-Learning-Teil der Machine-Learning-Community ist.
DFG-Verfahren
Sachbeihilfen