Detailseite
Entwicklung von Kernel-basierten und Ensemble-Machine-Learning-Methoden für die binäre/mehrklassige Verarbeitung von LC-HRMS/MS-Umweltdaten und Multiset-Modellierung von fusionierten Daten
Antragstellerin
Professorin Maryam Vosough, Ph.D.
Fachliche Zuordnung
Analytische Chemie
Förderung
Förderung seit 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 520243139
Die Hauptziele dieses Projekts sind wie folgt: (a) Entwicklung eines effizienten Data-Mining-Protokolls zur Auswertung komplexer Umweltdatensätze im DIA (AIF)-Modus in HPLC-Orbitrap-MS/MS. Aufgrund des hohen Wertes von massegenauen MS/MS-Spektren für Aufklärungs- und Bestätigungszwecke ist das Potenzial von chemometrischen Algorithmen der Multiset-/Tensor-Zerlegung, die in den Arbeitsablauf der nicht zielgerichteten Analyse (NTA) integriert sind, die MS2-Spektralabdeckung für komplexe Datensätze mit AIF zu erhöhen wird ausgewertet. Diese Tensorzerlegungen können verwendet werden, um Daten in niedrigdimensionalen Räumen abzubilden und Variablen in allen Messmodi zu trennen. Diese Prozesse werden an Wasserproben mit unterschiedlichem Komplexitätsgrad an den LC-MS1- und LC-MS2-Daten im separaten Modus und dann im fusionierten Modus durchgeführt (Arbeitspaket 1).(b) Verwendung von SVM und RF in ihrer ursprünglichen Form sowie in Kombination mit rekursiver Merkmalseliminierung (RFE) für die Binär-/Mehrfachklassifikation von LC-HRMS-Daten von räumlichen/zeitlichen Oberflächenwasserproben. Das Ziel ist die Schadstoffpriorisierung/-einstufung und das Finden der besten Teilmenge von Merkmalen für ein Vorhersagemodell mit hoher Genauigkeit. Diese Klassifikatoren sind so konzipiert, dass sie als Reaktion auf zuvor gemeldete Probleme wie die Klassifizierung von Längsverschmutzungsmustern in Oberflächengewässern49, die Auswirkungen einer begrenzten Replikation von Wasserproben und der Probengröße auf die Reproduzierbarkeit und Stabilität priorisierter Schadstoffe in raumzeitlichen Umweltstudien eingesetzt werden können. Die Ergebnisse der genannten Methoden (Anfangsrangfolge der Merkmale, Teilmenge ausgewählter Schadstoffe und Klassifikationsgenauigkeit) werden mit der priorisierten Liste von Schadstoffen verglichen, die durch die Variable Wichtigkeit bei der Projektion (VIP) und das Selektivitätsverhältnis (SR) für PLS-DA bereitgestellt wird. Daher wird eine umfassendere Auswertung von räumlich/zeitlich variierenden Oberflächenwasserproben durchgeführt. Dadurch können Schadstoffe, die an einen bestimmten Zeitrahmen gebunden sind, priorisiert und identifiziert werden. Letztendlich werden durch die Entwicklung einer quantitativen Methode, die auf authentischen Standards für hochrangige Schadstoffe basiert, zuverlässige Informationen über die relativen Konzentrationen potenziell gefährlicher Schadstoffe (als "Gemischexposition") im Satz von Oberflächengewässern und Umweltinterpretationen bereitgestellt, die dann ausgewertet werden können für weitere Forschung (Umweltüberwachung und Risikobewertungsstudien) genutzt (Arbeitspaket 2).
DFG-Verfahren
Sachbeihilfen