Project Details
Datenaufbereitung bei der Validierung von biomedizinischen Prädiktionsmodellen
Applicant
Professorin Dr. Anne-Laure Boulesteix
Subject Area
Epidemiology and Medical Biometry/Statistics
Term
from 2011 to 2015
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 192522475
Dieses Projekt soll die Schnittstelle zwischen Datenaufbereitung und Evaluation molekularer Prädiktionsmodelle für medizinische Zielgrößen betrachten. Der Hintergrund des Projekts ist, dass in der Praxis oft der gesamte Datensatz simultan aufbereitet wird (z.B. durch Normalisierung, Skalierung, Dichotomisierung oder Imputation) und somit die strikte Trennung zwischen Trainings- und Validierungsdaten nicht gewährleistet wird. Dadurch kann die Prädiktionsgüte überschätzt werden. Werden Trainings- und Validierungsdaten im Gegensatz dazu separat aufbereitet, können die gewonnenen Prädiktionsregeln schlechter übertragen werden. Diese beiden Aspekte sollen anhand einer empirischen Studie quantitativ untersucht werden. Darüber hinaus werden Ansätze, die die Datenaufbereitung in den Evaluationsprozess integrieren, weiterentwickelt: die Datenaufbereitung wird auf dem Trainingsdatensatz durchgeführt und durch spezielle Parameter dokumentiert. Diese Parameter werden anschließend dazu verwendet, die Validierungsdaten möglichst ähnlich aufzubereiten. Damit wird die Trennung von Trainings- und Validierungsdaten aus Sicht des statistischen Lernens gewährleistet. Trotzdem sind beide Datensätze vergleichbar, da sie mit denselben Parametern aufbereitet wurden.
DFG Programme
Research Grants