Detailseite
Lifespan AI - Projekt M1: Normalizing Flows für lebensüberspannende Gesundheitsdaten
Antragsteller
Professor Dr. Werner Brannath; Professor Dr. Marvin Wright
Fachliche Zuordnung
Epidemiologie und Medizinische Biometrie/Statistik
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 459360854
In den Gesundheitswissenschaften werden statistische Modelle verwendet, um die zeitliche Entwicklung von Gesundheitsendpunkten zu quantifizieren und um zu verstehen, wie diese von Risikofaktoren und/oder Behandlungen beeinflusst werden. Dabei ist die Quantifizierung von Unsicherheiten ein entscheidender Beitrag der Statistik. Trend und Unsicherheit werden am besten durch statistische Verteilungen beschrieben. So liefern Modelle für die gemeinsame Verteilung aller Variablen über alle betrachteten Zeitpunkte – zumindest im Prinzip – alle Schlussfolgerungen, die mit Statistik ohne unüberprüfbare Annahmen möglich sind. Ihre Schätzung ist allerdings eine Herausforderung und benötigt bei hochdimensionalen Daten Methoden der künstlichen Intelligenz (KI). In lebensüberspannenden Gesundheitsdaten sind die Variablen zudem unterschiedlich skaliert, werden oft an individuellen Zeitpunkten gemessen und entstammen verschiedenen, sich nur teilweise überlappenden Datenquellen oder Studienkohorten mit zeitlich-veränderlichen Variablen-Sets. In diesem Projekt sollen diese Schwierigkeiten durch Entwicklung neuartiger sog. Normalizing Flows überwunden werden, die auf invertierbaren residualen neuronalen Netzwerken basieren und verallgemeinerte gemischte lineare Modelle (GLMM) als Basisverteilungen verwenden. Dabei ist von Vorteil, dass GLMMs in den Gesundheitswissenschaften oft angewendet werden. Die Verwendung invertierbarer neuronaler Netze hat den Vorteil, numerisch-analytische Ausdrücke für die gemeinsame Verteilung zu liefern, was die Ableitung statistischer und wissenschaftlicher Aussagen stark vereinfacht. Unser neuer Ansatz basiert darauf, dass zunächst die bedingte Verteilung jedes Merkmals in Abhängigkeit von den anderen Merkmalen durch nichtlinear-transformierte GLMMs modelliert wird. Die so gewonnenen bedingten Verteilungen werden dann zu einer Gesamtverteilung durch Mittelung von zufällig-sequenziellen Faktorisierungen der bedingten Verteilungen zusammengefasst. Diese Faktorisierungen können durch Reduktion des Variablen-Sets, auf das bedingt wird, erreicht werden. Zusätzlich werden Algorithmen entwickelt, mit denen ein mit nur vollständigen Beobachtungen geschätztes Gesamtverteilungsmodell mit unvollständigen Beobachtungen angepasst und um neue Merkmale erweitert werden kann. Aus dem Gesamtverteilungsmodell werden schließlich Schätzungen von interessierenden bedingten Verteilungen abgeleitet, aus denen wiederum Punkt- und Intervallvorhersagen abgeleitet werden können. Wir werden zudem Methoden zur Interpretation des mittels KI geschätzten Verteilungsmodells und zur Beurteilung seiner internen und externen Validität entwickeln. Ansätze zur Quantifizierung der Modellanpassung und Berücksichtigung der Modellunsicherheit in den Vorhersageintervallen werden ebenfalls untersucht. Alle Methoden werden auf vom BIPS gepflegte bzw. erhobene Daten der IDEFICS/I.Family-Kohorte, der NAKO-Gesundheitsstudie und von GePaRD angewandt und mit diesen illustriert.
DFG-Verfahren
Forschungsgruppen