Detailseite
Analyse von Historischen und Kulturübergreifenden Vorurteilen durch die Brille der NLP (HistoBias)
Antragstellerinnen / Antragsteller
Professor Dr. Steffen Eger; Professorin Dr. Daniela Grunow; Professor Dr. Simone Paolo Ponzetto
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung seit 2025
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 544712340
Analyse von Vorurteilen (biases) ist in letzter Zeit ein Schlüsselthema in der Natürlichen Sprachverarbeitung (NLP) geworden. Ein Grund dafür ist, dass immer reifere Technologien soziale biases aus den zugrundeliegenden Methoden und Daten verstärken und sich so negativ auf die Gesellschaft auswirken können. In diesem Projekt beschäftigen wir uns mit sozialen biases gegenüber Migranten und Frauen. Insbesondere werden wir untersuchen, wie soziale biases bzgl. Geschlecht und Migrations-Status über die Zeit und in verschiedenen Sprachen/Kulturen (Deutsch, Englisch, Italienisch, Tschechisch) variieren. Dies kontrastiert mit der aktuellen Literatur, wo hauptsächlich biases im Englischen untersucht werden. Unsere Studie nutzt dabei zwei verschiedene Korpora, die unterschiedliche Untergruppen von Gesellschaft spiegeln: politische Debatten (seit den 1950ern) und soziale Medien (über die letzten 15 Jahre). Zunächst werden wir Daten über verschiedene Sprachen sammeln. Dann werden wir die Korpora bzgl. Sprachvariation vorverarbeiten, insbesondere hinsichtlich historischer Sprachvariation und Bedeutungswandel. Nach der Vorverarbeitung nehmen wir eine multilinguale Analyse von biases vor, die auf statistischen und kontextualisierten Textrepräsentierungen aufbaut und dabei Tests wie den “Word Embedding Association Test” (WEAT) erweitert und auch sogenannte “Templates” verwendet. Besonderes Augenmerk wird auf dem emergenten Thema von multidimensionalen biases liegen (die z.B. die Schnittmenge von Frauen und Migranten betreffen). Um die Interpretierbarkeit unserer Ergebnisse zu garantieren, werden wir unsere automatischen Embedding-basierten Tests mit fein-granularer menschlicher und automatischer Annotation ergänzen. Schließlich werden wir unsere (automatischen) Text-basierten Ergebnisse mit klassischen wiederholten Querschnitts-Umfragen aus den Sozialwissenschaften validieren und komplementieren, z.B. mittels ALLBUS, dem Eurobarometer und dem European Social Survey. Unsere Studie wird das Vakuum in der NLP-Literatur bzgl. Text-basierter Analyse von historischen und kultur-übergreifenden biases schließen. Dies kann die gegenwärtigen Ergebnisse zu biases (für modernes Englisch) relativieren und kontextualisieren. Wir hoffen, dass wir neue fruchtbare Forschungsrichtungen einleiten können, die das Verständnis vergrößern helfen, wie sich soziale biases über die Zeit und über Sprachen hinweg entwickelt haben und wie sie sich wahrscheinlich in der Zukunft entwickeln werden. Dieses bessere Verständnis wird wiederum zu größerer Fairness von Ansätzen des maschinellen Lernens beitragen, die auf Text-Daten basieren.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Spanien
Kooperationspartner
Professor Paolo Rosso