Detailseite
Infrastruktur für interaktive verteilte Exploration und Annotation grosser Korpora und Wissensbasen
Antragstellerinnen / Antragsteller
Dr.-Ing. Richard Eckart de Castilho; Professorin Dr. Iryna Gurevych
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2016 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 315979217
Das Ziel dieses Projekts ist die Erstellung einer skalierbaren Forschungsinfrastruktur zur phänomenorientieren Annotation großer Textkorpora anhand flexibel konstruierbarer Teilkorpora. Diese Infrastruktur adressiert die Anforderungen von Computerlinguisten und Korpuslinguisten nach einem generischen Werkzeug zur selektiven semantischen Annotation innerhalb von Dokumenten und über Dokumentgrenzen hinweg. Eine solche Infrastruktur ist notwendig für die gezielte linguistische Auswertung umfangreicher Mengen digitaler Texte. Wissenschaftler und andere Experten werden in die Lage versetzt, große Textkollektionen zu explorieren, Annotationsrichtlinien zu erstellen, und phänomenorientiere Teilkorpora aus einem großen Hintergrundkorpus zu extrahieren. Die Durchführung eines Annotationsprojekts wird flexibel an Annotationsteams verschiedener Qualifikationsstufen und Hintergründe an unterschiedlichen Standorten verteilbar sein. Deren Arbeit wird mit Hilfe maschineller Lernverfahren (ML) priorisiert und unterstützt, um effizient große Mengen hochqualitativer Annotationen für das Training und die Evaluation von ML-Verfahren erzeugen zu können. Gleichsam ermöglicht es die Infrastruktur, dass mehrere Annotationsteams mit unterschiedlichen Zielstellungen parallel auf dem selben Korpus arbeiten und ihn aus verschiedenen Perspektiven heraus untersuchen und annotieren. Eigene Textkorpora können nach Belieben in die Infrastruktur importiert und genutzt werden. Weiterhin wird es möglich sein, die zur semantischen Annotation genutzten Wissensbasen innerhalb der Infrastruktur zu verwalten, zu erweitern, aber auch externe Wissensbasen einzubinden.
DFG-Verfahren
Forschungsdaten und Software (Wiss. Literaturversorgung und Informationssysteme)