Detailseite
PriVisSSL: Privates Self-Supervised Learning in der Vision-Domäne
Antragstellerin
Dr. Franziska Boenisch
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 550224287
Self-Supervised Learning (SSL) hat sich als ein neues, leistungsfähiges Lernparadigma im maschinellen Lernen erwiesen. Im Gegensatz zum standardmäßigem Supervised Learning, bei dem Datenlabels erforderlich sind, stützt sich SSL auf ungelabelte Daten, um leistungsfähige Featureencoder zu trainieren. Dadurch birgt SSL das Potenzial, den Wert der großen Mengen an ungelabelten Daten zu erschließen, die unter Supervised Learning ungenutzt bleiben. Dies gilt vor allem in sensiblen Bereichen wie der medizinischen Bildgebung oder der Biometrie, wo das Labeln von Daten naturgemäß schwierig und teuer ist. Trotz ihrer vielversprechenden Leistung ist die Anwendbarkeit von SSL-Encodern in sensiblen Bereichen bisher begrenzt. Ein wichtiger Grund dafür ist, dass SSL-Encoder nachweislich sensible Informationen über ihre Trainingsdaten preisgeben, was ein erhebliches Risiko für deren Privatsphäre darstellt. Bislang gibt es keine gezielten Methoden, um das Risiko zu mindern und gleichzeitig die Leistung der Encoder aufrechtzuerhalten. In diesem Projekt nutzen wir das Konzept der Memorisierung, d. h. die Fähigkeit eines maschinellen Lernmodells, Informationen über seine Trainingsdaten zu speichern, um Privatsphärerisiken in SSL auf strukturierte Weise zu analysieren und zu mindern. Dafür erarbeiten wir zunächst ein grundlegendes Verständnis für Memorisierung in SSL und lokalisieren, wo die Informationen über einzelne Trainingsdatenpunkte in SSL-Encodern gespeichert werden. Anschließend quantifizieren wir die daraus resultierenden Privatsphärerisiken, identifizieren ihre Ursachen und verknüpfen das Privatsphärerisiko einzelner Datenpunkte formal mit dem Grad ihrer Memorisierung. Schließlich entwickeln wir auf der Grundlage unserer Erkenntnisse darüber, warum bestimmte Datenpunkte eine hohe Memorisierung aufweisen und wo in den Encodern sie gespeichert sind, gezielte Maßnahmen, die Privatsphärerisiken zu vermindern und es gleichzeitig zu ermöglichen leistungsstarke Encoder zu trainieren. Unser Ansatz eröffnet einen neuen Weg zum Einsatz hochleistungsfähiger SSL-Encoder in sensiblen Bereichen unter der Wahrung der Privatsphäre ihrer Trainingsdaten.
DFG-Verfahren
Sachbeihilfen