Detailseite
Projekt Druckansicht

Automatisierte Charakterisierung mikrobieller Genomen und Metagenomen anhand der Sammlung und Verifizierung von Assoziationsregeln

Antragsteller Dr. Giorgio Gonnella
Fachliche Zuordnung Bioinformatik und Theoretische Biologie
Förderung Förderung von 2019 bis 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 421071204
 
Dank der sinkenden Kosten der DNA-Sequenzierung, wird die Anzahl der verfügbaren Genomen und Metagenomen in den nächsten Jahren voraussichtlich weiterhin exponentiell wachsen. Um die große Menge von Daten zu bewältigen, werden die Analysen zunehmend automatisiert. Die Identifizierung unerwarteter oder untypischer Ergebnisse aus der Sequenz und Annotation von Genomen und Metagenomen verlangt nichtsdestotrotz noch einen erheblichen manuellen Analyseaufwand.Dieses Projekt beabsichtigt die Entwicklung eines Systems für die automatische Verifizierung von Regeln, welche die typischen oder erwarteten Inhalte eines Genoms oder Metagenoms beschreiben. Diese Regeln bestehen aus Assoziationen von Datenmerkmalen (z.B. Sequenzstatistiken oder Geninhalten) zu Metadaten (z.B. Eigenschaften des Habitats oder taxonomische Klassifizierungen) oder zu weiteren Datenmerkmalen. Assoziationen werden häufig in wissenschaftlicher Literatur zur Beschreibung von Genomen und Metagenomen informell erwähnt, und zwar in Sätzen wie "das Genom einer in Symbiose lebenden Mikrobe enthält üblicherweise eine reduzierte Genmenge" oder "obligat photosynthesierende Bakterien werden idR nicht nahe hydrothermalen Tiefseequellen gefunden". Bei der Analyse neuer Datensätze, werden solche Assoziationen häufig mittels ad hoc Analysen verifiziert. Dies geschieht mit unterschiedlichen Absichten: die Einschätzung der Datenqualität (z.B. die Erkennung wahrscheinlicher Kontaminationen) und die Ermittlung untypischer oder unerwarteter Ergebnisse. Letztere können aufschlussreiche Erklärungen bekannter Auffälligkeiten anzeigen und zur Formulierung neuer Hypothesen verhelfen.Das Projekt wird aus 3 Teilen bestehen. Erstens werden Konventionen zur Repräsentation von Assoziationen entwickelt (Definition eines Dateiformats für die Speicherung; Integration existierender Ontologiesysteme, um die lexikalische Beständigkeit sicherzustellen). Zweitens werden Regel-Datenbanken anhand verschiedener Ansätze vorbereitet (Data-Mining auf Sequenzen, Annotationen und Metadaten; Text-Mining und manueller Sammlung aus wissenschaftlicher Literatur; kollaborative Definition durch die wissenschaftliche Gemeinschaft). Drittens wird ein modulares System für die Verifizierung der Assoziationen implementiert. Um automatisierte Analysen anzubieten, werden die Regel-Datenbanken genutzt. Allerdings wird auch die Möglichkeit bestehen, die zu verifizierenden Regeln direkt zu spezifizieren.Das Hauptziel wird die Charakterisierung von Genomen mikrobieller Isolate und von Metagenomen, durch die Identifizierung untypischer, ggf. unerwarteter und daher potentiell wissenschaftlich interessanter Ergebnisse sein. Des Weiteren, durch die Ergänzung existierender Phänotypvorhersage-Software, wird das System auch an der Charakterisierung von Genomen aus unkultivierten Organismen anwendbar. Zuletzt wird die Identifizierung implausibler Ergebnisse dabei helfen, die Qualität von Assemblierungen mikrobieller Genome einzuschätzen.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung