Detailseite
Projekt Druckansicht

dCortools: Distanzkorrelationsverfahren zur Erkennung Nichtlinearer Zusammenhänge in Hochdimensionalen Molekularen Daten

Antragsteller Dr. Dominic Edelmann
Fachliche Zuordnung Medizininformatik und medizinische Bioinformatik
Förderung Förderung von 2019 bis 2022
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 417754611
 
Nahezu alle Methoden, die aktuell zum Testen von Zusammenhängen in hochdimensionalen molekularen Daten benutzt werden, können nur lineare oder monotone Zusammenhänge erfassen. Dies betrifft sowohl Tests für Zusammenhänge zwischen unterschiedlichen molekularen Variablen (z.B. Gen-Gen-Interaktionen) als auch Tests für Zusammenhänge von molekularen und klinischen Variablen (z.B. Gen-Umwelt-Interaktionen).Jedoch ist bekannt, dass viele biologische Beziehungen komplexer sind, zum Beispiel können sie eine nichtmonotone Form haben oder sich nicht einmal direkt durch mathematische Funktionen ausdrücken lassen. Distanzkorrelation ist ein neuartiges Abhängigkeitsmaß, welches jede Art von Abhängigkeit zwischen Zufallsvektoren beliebiger Dimensionen erkennen kann. Weiterhin ist der Distanzkorrelationskoeffizient sehr einfach zu berechnen, was ihn für den Einsatz in der statistischen Praxis prädestiniert. Trotz dieser überzeugenden Eigenschaften gibt es bisher nur wenige Anwendungen des Distanzkorrelationskoeffizienten auf hochdimensionale molekulare Daten. Zum einen ist dies auf fehlende Methodik für biostatistische Probleme zurückzuführen, zum anderen auf einen Mangel an verfügbarer anwendungsorientierter Software. Das Ziel dieses Projektes ist diese Lücke zu schließen. Insbesondere planen wir im ersten Teil des Projektes Distanzkorrelationsmethodik für biomedizinische Anwendungen zu entwickeln. Zunächst planen wir die Entwicklung iterativer Variablenselektionsverfahren, die unter der Voraussetzung von starken Korrelationsstrukturen, welche typischerweise in molekularen Daten vorliegen, deutlich effizienter sind als existierende univariate Verfahren. Weiterhin möchten wir die Distanzkorrelation auf Überlebenszeitdaten erweitern, welche insbesondere in der Krebsforschung sehr wichtig sind.Für den zweiten Teil des Projektes planen wir ein benutzerfreundliches R-Paket zu erstellen, welches für die Biostatistik nützliche Distanzkorrelationsverfahren zusammenfasst und so den Einsatz dieser Methodik für den Anwender ermöglicht. Die im ersten Teil des Projektes entwickelten Verfahren sollen wichtige Bestandteile dieses R-Paketes darstellen. Zum Abschluss des Projektes möchten wir das R-Paket auf einen Datensatz aus der DACHS-Studie anwenden, welcher aus epigenomweiten Methylierungsdaten, epidemiologischen und klinischen Daten von mehr als 2000 Patienten mit kolorektalem Karzinom besteht.Wir sind zuversichtlich, dass das geplante Projekt zu einem bedeutenden Anstieg der Benutzung von Distanzkorrelationsmethodik in der biostatistischen Praxis führen wird. In molekularen Daten können so komplexe Assoziationen erkannt werden, die beim Einsatz von linearen Verfahren nicht erfasst würden. Wir erhoffen uns, dass davon ein besseres Verständnis biologischer Prozesse abgeleitet werden kann.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung