Detailseite
Skalierbares Graphen-Lernen mit Kontrolle der Falschentdeckungsrate
Antragsteller
Professor Dr.-Ing. Michael Muma
Fachliche Zuordnung
Kommunikationstechnik und -netze, Hochfrequenztechnik und photonische Systeme, Signalverarbeitung und maschinelles Lernen für die Informationstechnik
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 550090872
Grafische Modelle werden dank ihrer Fähigkeit, komplexe Beziehungen zwischen Variablen zu erfassen, in vielen wissenschaftlichen Bereichen eingesetzt. Aufgrund technologischer Fortschritte und der Notwendigkeit, immer komplexere Datenstrukturen zu verstehen, ist die Zahl der Variablen in zahlreichen Forschungsbereichen stark angestiegen. Besonders deutlich wird dies bei der Bestimmung biologischer Netzwerke. Gemeinsam mit Domänenexperten behandeln wir daher exemplarisch diesen praktischen Anwendungsfall. In den betrachteten Szenarien kann die Stichprobengröße in der gleichen Größenordnung oder sogar kleiner als die Anzahl der Variablen sein (z. B. Untersuchung seltener Krankheiten). Folglich übersteigt die Zahl der potenziellen Kanten eines grafischen Modells bei weitem die Anzahl der verfügbaren Messungen. Daher sind strukturelle Annahmen wie Sparsamkeit für aussagekräftige, interpretierbare und zuverlässige grafische Modelle unabdingbar. Die Bestimmung des angemessenen Maßes an Sparsamkeit, insbesondere für hochdimensionalen Daten, erfordert einen Kompromiss zwischen inkludierten falsch positiven und falsch negativen Kanten. Unser Forschungsansatz maximiert daher den Prozentsatz der richtig positiven Kanten während gleichzeitig die Falschentdeckungsrate (FDR) auf einem akzeptablen Zielniveau kontrolliert wird. Zusammengefasst erforschen wir neue Methoden zur Kontrolle der FDR für grafische Modelle, die auf hochdimensionale Daten skalierbar sind und die einen praktischen Nutzen in biomedizinischen Anwendungen demonstrieren. Bislang gibt es nur sehr wenige Methoden mit nachweisbarer FDR-Kontrolle für hochdimensionale grafische Modelle. Eine vielversprechende Vorarbeit wurde kürzlich in unserer Gruppe entwickelt. Im Rahmen dieses Forschungsprojekts bauen wir auf unserem Terminating-Random-Experiments (T-Rex) Verfahren auf, um neue FDR-kontrollierende Graphenschätzungsmethoden zu entwickeln, die i) in ihrer Rechenkomplexität auf klinisch relevante, hochdimensionale Szenarien skalieren; ii) strukturelle Abhängigkeiten zwischen Variablen erfassen (z. B. hierarchische, gruppierte); iii) geeignet für Datenverteilungen mit schweren Rändern sind (z. B. elliptische); iv) keine manuelle Parameterabstimmung erfordern, sondern eine optimale Selbstkalibrierung beinhalten, so dass die true positive rate (TPR) bei Kontrolle der FDR maximiert wird. Die vorgeschlagene Methodik kann auch auf andere statistische Fehlergarantien erweitert werden (z. B. Verbinden disjunkter Graphenkomponenten). Die Arbeit ist in fünf Arbeitspakete (AP) unterteilt. AP 1 entwickelt FDR-kontrollierende Pseudo-Likelihood-Methoden, während AP 2 Score-Matching-Ansätzen erforscht. AP 3 befasst sich mit strukturierter Variablenauswahl. AP 4 bestimmt gemeinsam mit Kooperationspartnern reproduzierbare Graphen für hochdimensionale biologische Netzwerke. WP 5 stellt gut dokumentierte Open-Source-Softwarepakete und Visualisierungswerkzeuge bereit um den Impact unserer Arbeit zu erhöhen.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
China (Hongkong), Finnland, Frankreich, Großbritannien
Mitverantwortliche
Dr. Maik Pietzner; Professor Dr. Philipp Wild