Detailseite
Weiterentwicklung nicht-parametrischer Imputationsverfahren zur Erstellung anonymisierter synthetischer Datensätze
Antragsteller
Dr. Jörg Drechsler
Fachliche Zuordnung
Statistik und Ökonometrie
Förderung
Förderung in 2010
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 171106931
Die Nachfrage nach direktem Zugang zu Mikrodaten ist den letzten Jahren deutlich gestiegen. Allerdings ist eine Herausgabe der Daten nur möglich, wenn sichergestellt ist, dass durch die Bereitstellung der Datenschutz nicht verletzt wird. Ein innovativer Ansatz um dies zu gewährleisten, ist die Erzeugung synthetischer Datensätze. Bei diesem Verfahren werden die Originalwerte durch künstliche Werte ersetzt, wobei versucht wird, die gemeinsame Verteilung der im Datensatz enthaltenen Variablen zu erhalten. Allerdings ist die Erstellung dieser Datensätze sehr zeitaufwendig und komplex, so dass viele Institutionen nicht die Kapazitäten bereitstellen können, um diesen Ansatz für ihre eigenen Datensätze einzusetzen. Nicht-parametrische Verfahren, die eine weitgehend automatisierte Erzeugung synthetischer Datensätze ermöglichen, könnten diesen Aufwand deutlich reduzieren. Erste Ideen dazu wurden bereits in den Arbeiten von Reiter (2005d) dargelegt. Ziel des Forschungsvorhabens ist es, andere nicht-parametrische Prognoseverfahren so weiter zu entwickeln, dass sie sich zur Erstellung synthetischer Datensätze eignen und die Möglichkeiten einer automatisierten Anonymisierung anhand eines komplexen Datensatzes zu testen.
DFG-Verfahren
Forschungsstipendien
Internationaler Bezug
USA
Gastgeber
Professor Dr. Jerome P. Reiter