Project Details
Projekt Print View

Maschinelle Lernmethoden für die Chemische Informatik II

Subject Area Image and Language Processing, Computer Graphics and Visualisation, Human Computer Interaction, Ubiquitous and Wearable Computing
Term from 2007 to 2012
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 51114943
 
Das Anwendungsfeld der chemisch-biologischen Forschung stellt besondere Anforderungen an kernbasierte statistische Prädiktionverfahren: Zuverlässigkeit, Robustheit und Umgang mit Nichtstationarität. Im Bereich der Zuverlässigkeitsabschätzung von Vorhersagen konnten wir mit Gauß’schen Prozessen (GPs) ein leistungsstarkes Vorhersageverfahren in die Chemoinformatik einführen. Die Fehlerbalken der GPs lieferten vielfach hilfreiche Aussagen; gleichzeitig zeigte sich, dass derzeitige Verfahren zur Risikobewertung nicht allgemein für alle Endpunkte und Datensätze anwendbar sind und hier weiterer Forschungsbedarf besteht. Im Bereich der Robustheit konnten wir über eine KernPCA zur Ausreißererkennung und eine large-scale Implementierung heteroskedastischer GPs Messungenauigkeiten und Messfehler chemischer Versuchsreihen kompensieren. Basierend auf Ranking-Verfahren wurde ein neuer, besonders robuster Algorithmus für das Anwendungsfeld des virtuellen screenings entwickelt. Zur Nichtstationarität wurden zwei konzeptuelle Beiträge erarbeitet. Die beiden praktischen Studien hierzu illustrieren die Auswirkungen von Nichtstationarität auf das Prädiktionsverhalten. Neben der Entwicklung angepasster Vorhersageinstrumente hat das Forschungsprojekt gezeigt, dass maschinelle Lernverfahren über die reine Vorhersage hinaus zur Erweiterung des chemischen Verständnisses und zur Ableitung neuer chemischer Hypothesen beitragen können. Basierend auf lokalen Gradienten konnten einflussreiche molekulare Eigenschaften in Bezug auf Toxizität identifiziert und deren Relevanz für einzelne Verbindungen oder Verbindungsklassen erstmals quantifiziert werden. Ein neu entwickeltes Verfahren zur Visualisierung entscheidungsrelevanter chemischer Verbindungen bietet darüber hinaus dem Anwender die Möglichkeit, Vorhersagen besser nachzuvollziehen und Messfehler effizienter zu eliminieren. Zusammenfassend konnten wir im Berichtszeitraum Gauß’sche Prozesse in aller Breite als einen neuen Ansatz für QSAR-Studien etablieren, sowie erfolgversprechende neue Techniken im Bereich der Robustheit und Nichtstationarität entwickeln und über unsere neuen Erklärungverfahren erstmals die Anwendung von nicht-linearen maschinellen Lernverfahren als Optimierungshilfen in der Chemoinformatik ermöglichen.
DFG Programme Research Grants
 
 

Additional Information

Textvergrößerung und Kontrastanpassung