Detailseite
Datenaufbereitung bei der Validierung von biomedizinischen Prädiktionsmodellen
Antragstellerin
Professorin Dr. Anne-Laure Boulesteix
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Förderung
Förderung von 2011 bis 2015
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 192522475
Dieses Projekt soll die Schnittstelle zwischen Datenaufbereitung und Evaluation molekularer Prädiktionsmodelle für medizinische Zielgrößen betrachten. Der Hintergrund des Projekts ist, dass in der Praxis oft der gesamte Datensatz simultan aufbereitet wird (z.B. durch Normalisierung, Skalierung, Dichotomisierung oder Imputation) und somit die strikte Trennung zwischen Trainings- und Validierungsdaten nicht gewährleistet wird. Dadurch kann die Prädiktionsgüte überschätzt werden. Werden Trainings- und Validierungsdaten im Gegensatz dazu separat aufbereitet, können die gewonnenen Prädiktionsregeln schlechter übertragen werden. Diese beiden Aspekte sollen anhand einer empirischen Studie quantitativ untersucht werden. Darüber hinaus werden Ansätze, die die Datenaufbereitung in den Evaluationsprozess integrieren, weiterentwickelt: die Datenaufbereitung wird auf dem Trainingsdatensatz durchgeführt und durch spezielle Parameter dokumentiert. Diese Parameter werden anschließend dazu verwendet, die Validierungsdaten möglichst ähnlich aufzubereiten. Damit wird die Trennung von Trainings- und Validierungsdaten aus Sicht des statistischen Lernens gewährleistet. Trotzdem sind beide Datensätze vergleichbar, da sie mit denselben Parametern aufbereitet wurden.
DFG-Verfahren
Sachbeihilfen