Causal Discovery for Cohort Data
Mathematics
Final Report Abstract
Das Ziel vieler wissenschaftlicher Datenanalysen ist es, nicht nur Assoziationen sondern kausale Zusammenhänge zu beschreiben und zu quantifizieren, da letztere speziell für die Entscheidungsfindung (etwa medizinisch oder epidemiologisch) relevant sind. Kausale Zusammenhänge aus Beobachtungsdaten (also nicht-experimentell) zu erschließen, ist grundsätzlich ein schwieriges Unterfangen, das spezielle Methoden sowie subtile, kritisch zu hinterfragende, Annahmen erfordert. Wenn den Daten eine bekannte zeitliche Ordnung unterliegt, wie bei Kohortenstudien, sollte dies ausgenutzt werden. Diese und eine Reihe weiterer Herausforderungen, die Kohortendaten stellen, wurden in dem Projekt erfolgreich bearbeitet, sowohl in mathematisch-theoretischer Hinsicht wie auch durch die Entwicklung und Bereitstellung neuer Methoden. So haben wir einen statistischen Ansatz entwickelt, der zunächst die kausale Struktur aus Kohortendaten schließt, und anschließend für interessierende Expositionen den kausalen Effekt auf eine Zielvariable effizient schätzt. Die neuen Methoden haben folgende hervorzuhebende Eigenschaften: (1) Der Nutzer oder die Nutzerin können Vorwissen über die zeitliche Abfolge vorgeben, welches dann bei der kausalen Modellselektion optimal ausgenutzt wird. (2) Die Methoden sind allgemein anwendbar, ohne z.B. eine Linearität der kausalen Zusammenhänge vorauszusetzen. (3) Für unvollständige Messungen, wie es bei Beobachtungs- und speziell Kohortendaten die Regel ist, haben wir Verfahren der multiplen Imputation für die kausale Modellselektion entwickelt und gezeigt, dass diese den gängigen ad-hoc Ansätzen deutlich überlegen sind. Schwierigkeiten, die noch weiter zu erforschen sind, ergaben sich für stark korrelierte wiederholte Messungen bzw. für latente Strukturen. Alle neu entwickelten Verfahren sind in frei zugänglicher Software implementiert. Zum Abschluss des Projekts wurden die neuen Methoden für eine Analyse der IDEFICS/I.Family Kohortenstudie angewandt. Dabei ergaben sich interessante neue Erkenntnisse über mögliche kausale Zusammenhänge zwischen Schlafdauer bzw. Medienkonsum und kindlichem Übergewicht.
Publications
- Covariate selection strategies for causal inference: Classification and comparison. Biometrical Journal. 2018; 61(5):1270-1289
Witte J, Didelez V
(See online at https://doi.org/10.1002/bimj.201700294) - Causal discovery of gene regulation with incomplete data. Journal of the Royal Statistical Society: Series A (Statistics in Society). 2020; 183(4):1747-1775
Foraita R, Friemel J, Günther K, Behrens T, Bullerdiek J, Nimzyk R, Ahrens W, Didelez V
(See online at https://doi.org/10.1111/rssa.12565) - On efficient adjustment in causal graphs. Journal of Machine Learning Research. 2020; 21(246):1-45
Witte J, Henckel L, Maathuis MH, Didelez V