Detailseite
Projekt Druckansicht

Speicher- und Anwendungsdiversität – Optimierung eines nachhaltigen Repositoriums für audiovisuelle Forschungsdaten

Fachliche Zuordnung Allgemeine und Vergleichende Sprachwissenschaft, Experimentelle Linguistik, Typologie, Außereuropäische Sprachen
Förderung Förderung seit 2023
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 519472872
 
Audiovisuelle Forschungsdaten spielen in zahlreichen Geisteswissenschaften, u.a. in den Sprach- und Musikwissenschaften, der Ethnologie und der Oral History, eine immer wichtigere Rolle. An der Universität zu Köln besteht seit Jahren eine enge Zusammenarbeit zwischen dem fakultären Data Center for the Humanities (DCH), dem Institut für Linguistik (IfL) und dem Regionalen Rechenzentrum (RRZK) im Bereich linguistischer Forschungsdaten. Ein Ergebnis dieser Zusammenarbeit ist das Kölner Zentrum Archivierung und Analyse von audiovisuellen Daten (KA³) und das durch das Zentrum entwickelte KA³-Repositorium. Das KA³-Repositorium stellt den technischen Kern und das Hauptangebot des Zentrums dar. Das Language Archive Cologne (LAC) nutzt das Angebot des Kölner Zentrums, um Services für annotierte audiovisuelle Sprachdaten anzubieten. Das KA³-Repositorium ist eine Repositoriumslösung für audiovisuelle Forschungsdaten, welches seine Daten über das Oxford Common File Layout (OCFL) strukturiert speichert. Aktuell sind 1.3 TB Daten hochgeladen, weitere 3 TB befinden sich auf verschiedenen Stufen der Ingestpipeline. Mittelfristig ist mit 0.5-1 TB neuen Daten pro Jahr zu rechnen. Das Ziel dieses Vorhabens ist es, zu untersuchen, inwiefern OCFL robust in verschiedenen Speichertechnologien und im Zusammenspiel mit audiovisuellen Forschungsdaten funktioniert und damit eine nachhaltige Datenstruktur für diesen Datentyp und die dazugehörigen Annotationen darstellt. Die Schlüsselbegriffe hier sind Speicher- und Anwendungsdiversität. Speicherdiversität: An universitären Rechenzentren wie dem der Universität zu Köln tritt etwa alle fünf bis zehn Jahre ein neues Speichersystem mit jeweils spezifischen Möglichkeiten und Restriktionen der Speicherung von Forschungsdaten (Quota, Abbildung von Hierarchien, etc.) hinzu. Anwendungsdiversität: Die für die nachhaltige Verfügbarkeit von Forschungsdaten relevanten Informationen werden im diachronen Verlauf von ganz unterschiedlichen Anwendungen verwaltet und abgerufen (Repositorien, fachwissenschaftliche Portale, etc.). Die Migration von einem technischen System in ein anderes ist mit dem Risiko verbunden, Informationen zu verlieren. Ziel des hier beschriebenen Vorhabens ist es zu zeigen, dass die Kombination aus OCFL und Object Storage ein effizienter Lösungsansatz ist, um dem Alterungsprozess technischer Systeme entgegenzuwirken. Zur Validierung dieses Lösungsansatzes werden aus den Anwendungsbereichen Linguistik und Oral Literature Daten in das System überführt. Es wird evaluiert, ob diese Daten den technischen Systemwechsel unter Beibehaltung ihrer vollen Funktionalität durchlaufen haben. Ein zentrales Anliegen des Projekts ist also die fachwissenschaftliche Evaluation technischer Lösungen.
DFG-Verfahren Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung