Detailseite
iLCM - Eine virtuelle Forschungsumgebung für large-scale qualitative Daten
Antragsteller
Dr. Arnim Bleier, seit 8/2017; Professor Dr. Gerhard Heyer
Fachliche Zuordnung
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Förderung
Förderung von 2017 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 324867496
Das Projekt iLCM verfolgt die Entwicklung einer integrierten Forschungsumgebung zur Analyse strukturierter und unstrukturierter Daten in einer Software as a Service-Architektur (SaaS). Damit adressiert die Forschungsumgebung sowohl Bedarfe zur quantitativen Auswertung großer Mengen qualitativer Daten mit Hilfe von Text Mining-Verfahren, als auch Anforderungen an die Reproduzierbarkeit datengetriebener Forschungsdesigns in den Sozialwissenschaften. Die Forschungsumgebung iLCM basiert auf dem Leipzig Corpus Miner (LCM), einer dezentralen SaaS-Anwendung zur Auswertung sehr großer Mengen von Nachrichtentexten, welche in einem vorangegangenen eHumanities-Projekt entwickelt wurde. Zur Nutzung des Instruments für generische Forschungsfragen wird der LCM-Prototyp um neue Funktionalitäten erweitert. Darüber hinaus werden die allgemeinen Text Mining-Werkzeuge des LCM um eine Open Research Computing-Umgebung (ORC) für aktive ausführbare Dokumente, sogenannte Notebooks, ergänzt. Mit Hilfe einer solchen ORC-Umgebung können per LCM aus Textdaten extrahierte semantische Strukturen flexibel mit weiteren Daten verknüpft werden. Damit werden individuelle Forschungsdesigns nach projektspezifischen Anforderungen möglich. Analyseabläufe können in Notebooks, d.h. Skripte und deren verbale Beschreibung, gespeichert und zusammen mit den Ausgangsdaten als aktive, ausführbare Dokumente veröffentlicht werden. GESIS entwickelt als Dienstleister zur Archivierung von Forschungsdaten im Rahmen des Projekts einen zentralen Service zur Ausführung, Veröffentlichung und Archivierung von Notebooks. Die Veröffentlichung von Notebooks zusammen mit Ausgangs-/Zwischendaten ermöglicht, dass Forschungsergebnisse und -abläufe vollständig reproduziert, geteilt und wiederverwendet werden können. Hierdurch erwarten die Antragssteller einen großen Entwicklungssprung für das entstehende Feld der Computational Social Science in Forschung und Lehre.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
Ehemaliger Antragsteller
Professor Dr. Markus Strohmaier, bis 8/2017