Detailseite
MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten
Antragsteller
Dr. Fabian Panse
Fachliche Zuordnung
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung
Förderung seit 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 495170629
Das Erkennen und Beseitigen von Duplikaten sind wichtige Aufgaben im Datenmanagement. Da sich die Anforderungen an ein solches Management aufgrund des zunehmenden Volumens, der Volatilität und der Verschiedenartigkeit der Daten zusehends ändern, ändern sich dementsprechend auch die Anforderungen an Duplikaterkennungs und -eliminierungs Algorithmen. Während sich die Forschung bereits intensiv mit der Anpassung dieser Algorithmen an die sich ändernden Gegebenheiten beschäftigt, sind existierende Testdatengeneratoren immer noch für kleine - meist relationale - Datensätze ausgelegt, so dass sie heutigen Anforderungen nicht mehr genügen. Da die Evaluation solcher Algorithmen jedoch ein wichtiger Bestandteil von Forschung und Praxis ist, sind neue Methoden zur Testdatengenerierung unabdingbar. In diesem Projekt wird ein neuer Ansatz zur Testdatengenerierung entwickelt und implementiert, der die Erstellung großer Testdatensätze mit komplexen Datenschemata unter Verwendung unterschiedlicher Datenmodelle und mit realistischen Fehlermustern, wie sie z.B. durch Kopiervorgänge und veraltete Werte entstehen, ermöglicht. Darüber hinaus werden wir ein Konzept zur automatischen Vorkonfiguration entwickeln und implementieren, das die Anwender dabei unterstützt, die Parametereinstellungen des resultierenden Generierungssystems an ihren jeweiligen Anwendungsfall anzupassen, um so eine effiziente und effektive Nutzung auch für unerfahrene Nutzer zu ermöglichen. Die wichtigsten Forschungsherausforderungen dieses Projekts sind: (i) das Profiling von nicht-relationalen und temporalen Daten, (ii) die effiziente Generierung von realistischen Datenhistorien zur Simulation von Kopierprozessen und veralteten Werten, (iii) die automatische und individuell anpassbare Berechnung von Parametereinstellungen (einschließlich einer anforderungsgesteuerten Transformation von Datenschemata) und (iv) die skalierbare Injektion realistischer Datenfehler und Fehlermuster in bestehende Datensätze.
DFG-Verfahren
Sachbeihilfen
Internationaler Bezug
Australien
Kooperationspartner
Professor Dr. Peter Christen
Mitverantwortliche
Professorin Dr.-Ing. Meike Klettke; Professor Dr. Felix Naumann