Detailseite
Resampling-basierte Vergleichsstudien von Prädiktionsmethoden mit Schwerpunkt auf hochdimensionalen biologischen Daten
Antragstellerin
Professorin Dr. Anne-Laure Boulesteix
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Förderung
Förderung von 2009 bis 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 158005760
Resampling-basierte Vergleichsstudien für Prädiktionsmodelle unter Verwendung von realen Daten werden routinemäßig in computationalen Bereichen, wie der Biostatistik, Bioinformatik oder im Bereich des Maschinellen Lernens, durchgeführt. Zum Beispiel können überwachte Klassifikationsmethoden anhand ihrer kreuzvalidierten Prädiktionsgüte verglichen werden, unter Hinzunahme von beispielsweise fünf Beispieldatensätzen. Jedoch bleiben viele methodologische Fragen bezüglich solcher Vergleichsstudien -- und Resampling-basierten Verfahren im Allgemeinen -- offen. Dieses Projekt behandelt solche Aspekte unter besonderer Berücksichtigung von Anwendungen für hochdimensionale Daten. Im ersten Teil dieses Projektes befassen wir uns mit dem Design solcher Vergleichsstudien im Hinblick auf die Durchführung von statistischen Hypothesentests, indem wir Parallelen ziehen zwischen Vergleichsstudien für computationale Wissenschaften (in denen die Performance verschiedener Methoden verglichen wird) und klinischen Studien (in denen Therapieeffekte in einer Patientenpopulation untersucht wird). In Anbetracht dieser Metapher entwickeln wir Methoden zur Behandlung von Themen, wie z.B. der Wahl eines Resampling-Verfahrens unter Berücksichtigung der Variabilität, oder der Beziehung zwischen der Performance einer Methode und den Charakteristiken von Datensätzen mit Fokus auf statistische Inferenz und Power. Dieses statistische Konzept soll über Prädiktionsmodelle hinaus auf andere Bereiche erweitert werden. Der zweite Teil dieses Projektes handelt, unter Verwendung von Konzepten aus der biomedizinischen/klinischen Forschung, von wissenschaftlicher Praxis und Interpretationen aus Literatur der computationalen Wissenschaften, mit dem Schwerpunkt auf Prädiktionsmodellen. Genauer gesagt, übertragen wir die Konzepte aus der klinischen Forschung, wie die Synthese vieler Studien über eine sogenannte Meta-Analyse, Einschlusskriterien für Patienten in eine Studie, oder die Freiheitsgrade eines Wissenschaftlers (die zu multiplen Testproblemen und Fishing for Significance führen), in die Welt der computationalen Wissenschaft. Im dritten Teil entwickeln wir Methoden für das Tunen/Abstimmen von Parametern, das in der Praxis häufig mithilfe von Resampling-basierten Methoden durchgeführt wird. Methoden werden vorgeschlagen, um den Einfluss von der Abstimmung von Parametern auf die Performance einer Methode zu evaluieren. Verschiedene Resampling-basierte Methoden für das Tunen von Parametern werden systematisch untersucht und miteinander verglichen und es werden alternative Verfahren, die nicht auf Resampling basieren, entwickelt.
DFG-Verfahren
Sachbeihilfen