Plagiatserkennung in einer LLM-Welt – Kuratierung eines neuartigen Datensatzes für wissenschaftliche Plagiatserkennungssysteme
Fachliche Zuordnung
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 554559555
Der Aufstieg und die weit verbreitete Zugänglichkeit generativer Large Language Models (LLMs) wie GPT oder LLaMA und insbesondere ihrer öffentlich verfügbaren Anwendungen wie ChatGPT haben in verschiedensten Aspekten unseres Lebens erhebliche, tiefgreifende positive Auswirkungen erzielt. Insbesondere im akademischen Bereich sind Programme wie ChatGPT zu einem unverzichtbaren Hilfsmittel geworden, welche bei der Forschung, dem Verfassen von Arbeiten und der Verbesserung des gesamten Lernerlebnisses unterstützen. Allerdings bergen die gleichen Eigenschaften, die diese Technologien nützlich machen, auch erhebliche Gefahren. So hat die Verbreitung von LLMs komplexe Herausforderungen mit sich gebracht, von der Erleichterung von Malware- und Social-Engineering-Angriffen über automatisierte Einflusskampagnen, Spam, Belästigung und, von besonderem Interesse für diesen Antrag, im Bereich der akademischen Integrität. Ein Hauptanliegen und der Fokus dieses Antrags ist die erwartete Zunahme sowohl in Häufigkeit als auch in Komplexität von Plagiaten durch den öffentlichen Zugang zu Programmen wie ChatGPT. Das Fehlen angemessener und realistischer groß angelegter Plagiatsdatensätze hat die Weiterentwicklung und Praktikabilität automatisierter Plagiatserkennungssysteme (PDS) erheblich behindert. Bisher wurde die Erstellung solcher Datensätze in großem Maßstab aufgrund des Fehlens einer automatisierten Lösung, also das Fehlen eines "automatischen Plagiators", als unmöglich angesehen. Mit der Verfügbarkeit von LLMs können wir jedoch argumentieren, dass ChatGPT die Rolle eines solchen automatischen Plagiators erfüllen kann. Dies ermöglicht nicht nur die Generierung von synthetischen Plagiaten in großem Maßstab, sondern vor allem auch die Erstellung von realistischeren Plagiaten. Dies versorgt die Forschungsgemeinschaft mit den lang ersehnten Ressourcen, um wesentliche Fortschritte und die gewünschte Praktikabilität bei PDS zu erzielen. Das Ziel dieses Projekts ist es, einen realistischen Benchmark-Datensatz für externe PDS zu entwickeln. Der Datensatz wird auf die erwarteten zukünftigen Herausforderungen des realen Plagiats ausgerichtet sein, indem die Fähigkeiten generativer LLMs genutzt werden, um die Plagiate in unterschiedlichem Maße zu paraphrasieren und anderweitig zu verschleiern. Unser synthetisches Plagiat wird unter Verwendung mehrerer LLMs generiert, um die aktuelle Landschaft an verfügbaren LLMs zu repräsentieren. Wir planen, den Datensatz als benutzerfreundlichen und erweiterbaren Benchmark für PDS zu gestalten und ihn in einem geeigneten Rahmen der Forschungsgemeinschaft zur Verfügung zu stellen.
DFG-Verfahren
WBP Stipendium
Internationaler Bezug
Japan