Detailseite
Projekt Druckansicht

Verbesserung der Vorhersage genregulatorischer Varianteneffekte in der Erforschung von Krankheiten durch maschinelles Lernen und Hochdurchsatzexperimente

Antragsteller Dr. Max Schubach
Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Förderung Förderung seit 2021
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 464313370
 
Die Mehrzahl genetischer Varianten, die mit häufigen Krankheiten assoziiert sind, sowie ein unbekannter Anteil kausaler Varianten seltener Erkrankungen liegen in nichtkodierenden Regionen des Genoms. Obwohl Kataloge genregulatorischer Elemente ständig verbessert werden kennen wir bisher selten die funktionellen Auswirkungen von Varianten in diesen Bereichen. Im Kontext der Präzisionsmedizin werden Methoden des maschinellen Lernens (ML) entwickelt und angewendet, um Varianten bei Erkrankungen des Menschen zu priorisieren und zu implizieren. Dies wird vorwiegend auf proteinkodierende Sequenzen angewendet aber der größere nichtkodierende Teil des Genoms ist unzureichend abgedeckt. Wir glauben, dass basierend auf geeigneten Trainingsdatensätzen nützliche ML Modelle erstellt werden können. Massively Parallel Reporter Assays (MPRAs) stellen hier eine Lösung dar, sind jedoch in ihrem Durchsatz begrenzt um alle potenziell möglichen Varianten abzudecken. Durch die Kombination von ML und MPRAs wollen wir verbesserte Varianteneffektvorhersagen entwickeln.Basierend auf einem neuen innovativen Ansatz zur genomweiten Variantenauswahl können >120.000 Varianten in >60.000 Regionen für MPRA-Tests in mehreren Zelltypen bestimmt werden. Dabei werden tiefe neuronale Netze verwenden, die auf aktiven und nicht aktiven Sequenzen aus mehreren Zelltypen trainiert sind, um mögliche Änderungen mit starkem sowie fehlenden Effekt zu selektieren. Diese Modelle werden uns Einblicke in die Sequenzkodierung verschiedener Zelltypen geben, und resultierende MPRA-Datensätze werden ein besseres Verständnis regulatorischer Sequenzfunktion liefern, wenn sie im Kontext verfügbarer epigenomischer Daten analysiert werden. Darüber hinaus sind die Messwerte Grundlage für iterative Verbesserungen der Auswahlstrategie und werden künftigen MPRA-Studien zugutekommen.Der zu erhaltene Trainingsdatensatz wird für Modellierungsgruppen einen dringend benötigten genomweiten Goldstandard für quantitative Varianteneffekte darstellen. Durch die Integration umfassender öffentlicher Datensätze werden wir eine neue Generation von Prädiktoren in mehreren Zelltypen etablieren. Die Integration der neuen Vorhersagen in ein anerkanntes genomweites Framework zur Vorhersage von Varianteneffekten (CADD) wird die Priorisierung krankheitsverursachender Varianten verbessern und Klinikern zugänglich gemacht. Obwohl unsere Vorhersagen anfangs auf gut untersuchte Zelltypen mit umfassenden experimentellen Daten beschränkt sind, werden die identifizierten Prinzipien aus unseren Analysen und Modellen darüber hinaus übertragbar sein.In der Vergangenheit haben wir ML-Modelle für verschiedene Variantenklassen entwickelt und verfolgen mit großem Interesse das Problem der Varianteninterpretation weiter. Mit etablierten Kooperationen und unserem Know-how sind wir in einer einzigartigen Position, um mithilfe von MPRAs und ML bessere Prädiktoren für Varianteneffekte regulatorischer Sequenzen zu entwickeln.
DFG-Verfahren Sachbeihilfen
Internationaler Bezug USA
Mitverantwortlich Professor Dr. Martin Kircher
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung