Detailseite
Finden von Strukturen des CRISPR-Cas Systems mithilfe von tiefen neuronalen Netzen
Antragstellerin
Professorin Dr. Alice C. McHardy
Fachliche Zuordnung
Bioinformatik und Theoretische Biologie
Förderung
Förderung seit 2018
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 405892038
In den letzten Jahren haben sich tiefe neuronale Netze wie die rezidivierenden neuronalen Netze (RNN) und konvolutionelle neuronale Netze (CNN) zu einem zentralen und bemerkenswert effektiven Modellierungswerkzeug für Klassifikationsaufgaben wie Sprach- und Bilderkennung sowie für die Textklassifikation entwickelt und übertreffen klassische maschinelle Lernansätze und sogar Menschen in der Video- und Bilderkennung. Allerdings werden RNN noch immer kaum auf genetischen Datensätzen angewandt und getestet. In diesem Antrag stellen wir den Einsatz von RNN zur Modellierung von CRISPR-Regionen und den damit verbundenen Genomen sowiederen Targets vor. Durch die Visualisierung der verborgenen Zustände des trainierten Netzwerks erhalten wir Einblicke in strukturelle Eigenschaften, die von CRISPR loci und den damit verbundenen Genom- und Zielsequenzen, wie z.B. dem Protospacer Adjacent Motif (PAM), geteilt werden. Aufgrund der Tatsache, dass Nukleotid-Level-Modelle unbeaufsichtigt trainiert werden, ist die Methode in der Lage, noch unbekannte strukturelle Eigenschaften des CRISPR-Systems zu detektieren. Unser erstes Ziel ist es, einen Katalog alle CRISPR-Strukturen zu erstellen, die sich in einer großen Sammlung von Metagenomen identifizieren lassen (’Ziel 1’). Mit diesen Daten und zusammen mit 2509 bereits identifizierten CRISPR-Loci aus kompletten Genomen wollen wir RNNs einsetzen, um versteckte Strukturen aufzudecken (’Ziel 2’). Das trainierte Modell wird auch zur Validierung vermeintlicher CRISPR-Loci, die den Großteil der aktuellen CRISPR-Datenbanken ausmachen, und zur Verfeinerung der CRISPR-Subtypklassifikation verwendet (’Ziel 3’).
DFG-Verfahren
Schwerpunktprogramme