Detailseite
Übertragbarkeit von Modellen des Maschinellen Lernens in der digitalen Bodenkartierung
Antragsteller
Professor Dr. Thomas Scholten
Fachliche Zuordnung
Bodenwissenschaften
Förderung
Förderung seit 2021
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 448762063
Maschinelle Lernmodelle haben große Erfolge beim Lernen komplexer Muster wie zum Beispiel die räumliche Verbreitung von Bodeneigenschaften gezeigt, die es erlauben Vorhersagen über nicht erfasste Bereiche zu treffen. Die Fähigkeit, das Gelernte auf andere Gebiete anzuwenden ist dagegen wenig entwickelt und bislang können die Modelle nur sehr eingeschränkt auf Bereiche außerhalb der unmittelbaren Lernumgebung übertragen werden. Ähnlich empirischen Regressionen gelten die Regelwerke, z.B. bei Entscheidungsbaumverfahren wie Random Forest, nur für den von Trainingsdaten abgedeckten Wertebereich. Für jedes weitere Gebiet werden erneut möglichst hochwertige und umfangreiche Trainingsdaten benötigt. Fortschritte im Bereich des Deep Learning (DL), z.B. Convolutional Neural Networks, des Transfer Learnings und kombinierte Ansätze im Bereich Feature Selection (FS) bieten hier erweiterte Möglichkeiten, um die Dimensionalität gerade bei kleineren Datensätzen einzuschränken, die Überanpassung an die Trainingsdaten zu minimieren und die Übertragung auf angrenzende Gebiete zu verbessern. Im vorliegenden Antrag nehmen wir diese Entwicklungen auf und versuchen Bodeneigenschaften auch für Bereiche außerhalb der Lernumgebung vorherzusagen. Dazu erstellen wir zunächst mit Umweltfaktoren eine gebietsspezifische Parametrisierung maschineller Lernmodelle anhand von geomorphometrischen, geologischen, landschaftsökologischen und klimatischen Parametern. Welche Parameter dies im Einzelnen sind und wie sie untereinander im Verhältnis stehen, wird exemplarisch für verschiedene Testdatensätze in Deutschland (humides Klima) und im Iran (semi-arid bis arides Klima) durch die Kombination von Methoden des DL und der FS berechnet. Im Folgeschritt werden die mit den ausgewählten Parametern der Umweltfaktoren und den Bodenprofildaten trainierten Modelle auf nicht trainierte Gebiete übertragen und an unabhängigen Bodendaten validiert. Die nicht trainierten Gebiete werden anhand von Distanz- und Ähnlichkeitsmaßen hinsichtlich ihrer Vergleichbarkeit mit den ursprünglichen Trainingsgebieten charakterisiert, um die Transferleistung der maschinellen Lernmodelle zu beurteilen. Abschließend ist vorgesehen, für die unbekannten Gebiete schrittweise Trainingsdaten zuzufügen, um die Entwicklung der Vorhersagegenauigkeit zu quantifizieren und die Transfereigenschaften verschiedener ML-Verfahren zu beurteilen. Als Trainingsdaten dienen LUCAS-Daten für Deutschland und Bodenprofildaten aus der nationalen SPDB Datenbank für den Iran. Die Umweltparameter werden aus Satellitendaten, digitalen Höhenmodellen, Weltklimadaten sowie Landnutzungskarten und geologischen Kartenwerken abgeleitet. Bodeneigenschaften sind Bodenkohlenstoffgehalt, Bodentextur, Carbonatgehalt und Kationenaustauschkapazität. Es werden 12 maschinelle Lernverfahren vergleichend angewendet.
DFG-Verfahren
Sachbeihilfen