Detailseite
Projekt Druckansicht

Moderne statistische Inferenz für die gemeinsame Modellierung longitudinaler Daten und Ereigniszeiten

Fachliche Zuordnung Epidemiologie und Medizinische Biometrie/Statistik
Förderung Förderung seit 2019
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 426493614
 
Gemeinsame Modelle für Längsschnittdaten und Ereigniszeitanalyse haben in den letzten Jahren sowohl in der Statistik als auch in der Biomedizin viel Aufmerksamkeit erregt, da sie eine in den Lebenswissenschaften sehr verbreitete Datenstruktur berücksichtigen. In vielen klinischen Studien oder Registerdaten werden longitudinale Ergebnisse, wie z. B. diagnostische Messungen, zusammen mit Ereigniszeitpunkten, wie z. B. dem Tod, aufgezeichnet. Diese zwei Prozesse sind häufig miteinander verknüpft und die gemeinsame Modellierung beugt der Verzerrungen/dem Bias vor, der durch eine unabhängige Modellierung entstehen. Obwohl in den letzten zwei Jahrzehnten umfangreiche Forschungsarbeiten zu diesem Thema durchgeführt wurden, werden in den wenigsten Ansätzen keine komplexeren Modelle in den Längsschnittteil des gemeinsamen Modells mit einbezogen, und es wurden zudem kaum Vorschläge zur Variablenauswahl gemacht. Ziel dieses Projekts ist es, Erkenntnisse aus dem Rahmen des statistischen Lernens zu nutzen, um diese Lücke zu schließen. Der Fokus bei der Erweiterung der Modellierung der longitudinalen Zielgröße wird auf der Verteilungsregression sein. Mit dieser können Eigenschaften des Längsschnitt-Ergebnisses zu erfasst werden, die über den Mittelwert hinausgehen und zum Beispiel der Einfluss der Varianz einer stetigen Zielgröße auf die Ereigniszeit gemessen werden. Zu diesem Zweck werden aktuelle Entwicklungen im Bereich des statistischen Lernverfahrens „Gradient Boosting“ ausgebaut. Dieser Rahmen bietet auch die Option der Variablenselektion und -schrumpfung, die selbst in Situationen mit mehr Kovariablen als Beobachtungen funktioniert. Die Variablenselektion in einem gemeinsamen Modell beinhaltet die zusätzliche Aufgabe, die Kovariablen dem richtigen Teil des Modells zuzuordnen, d.h. zu erkennen, ob die Variable einen Einfluss auf das longitudinale Ergebnis, die Ereigniszeit oder beide hat. Dieses Zuordnungsprinzip wurde bereits in der ersten Runde dieses Projekts in einfacheren Modellklassen implementiert, soll aber an die oben erwähnte Verteilungsregression angepasst werden. Weitere Erweiterungen des Models selbst, wie z.B. Strategien zur räumlichen Modellierung, sind geplant und machen eine gute Modelauswahlstrategie notwendig. Daher zielt dieses Projekt auch darauf ab, Werkzeuge zur Modelselektion aus dem weiten Feld des statistischen Lernens, wie z.B. Probing oder Stabilityselection, an das gemeinsame Modell im gradient Boosting anzupassen und zu testen. Der entwickelte Inferenzrahmen wird in Open-Source-R-Paketen implementiert und öffentlich zugänglich gemacht. Die Methoden werden in Zusammenarbeit mit dem deutschen Mukoviszidose-Register mit besonderem Fokus auf Mukoviszidose entwickelt. Hierbei sind Lungenfunktionsmessungen die longitudinale Komponente des Models und Lungeninfektionen oder der Tod das Ereignis. Die Methoden werden jedoch generisch implementiert, so dass sie auf weitere praktische Forschungsprobleme angewendet werden können.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung