Detailseite
Effiziente Semantische Suche auf Big Data
Antragstellerin
Professorin Dr. Hannah Bast
Fachliche Zuordnung
Theoretische Informatik
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Datenmanagement, datenintensive Systeme, Informatik-Methoden in der Wirtschaftsinformatik
Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung
Förderung von 2014 bis 2020
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 254890286
Thema des Projektes ist die effiziente semantische Suche auf "Big Data", hier vor allem sehr große Textsammlungen und sehr große Wissensdatenbanken.In der ersten Runde des SPP haben wir folgende Beiträge geliefert: eine neue Suchmaschine für die interaktive kombinierte Suche auf Text und Wissensdatenbanken; ein neuer skalierbarer Algorithmus zur Zerlegung von Text in seine semantisch kohärenten Einheiten; ein neuer Algorithmus für die Berechnung von Relevanzscores für Tripel aus Wissensdatenbanken; ein selbstlernendes Frage-Antwort System zur automatischen Übersetzung von natürlichsprachlichen Fragen in strukturierte Anfragen auf Wissensdatenbanken; ein umfassender Übersichtsartikel über das riesige Feld der semantischen Suche auf Text und Wissensdatenbanken.In der nächsten Runde des SPP planen wir verbesserte Lösungen für einige dieser Probleme, sowie Lösungen für neue Probleme, die im Rahmen unserer Arbeit in der ersten Runde aufgetreten sind: eine SPARQL+Text Suchmaschine mit allen Features (bestehende SPARQL Suchmaschinen haben wenn überhaupt nur schwache Erweiterungen zur Textsuche, und unserer Suchmaschine aus der ersten Runde unterstützt nur baumartige Suchanfragen und verlässt sich auf deren inkrementelle Konstruktion); eine Erweiterung unseres Frage-Antwort Systems auf komplexere Fragetypen die zudem auch eine Textsuchkomponente haben können; ein System für die automatische Vervollständigung von natürlichsprachlichen Fragen; eine verbesserte Entitätserkennung für semantische Suche auf sehr großen Datenmengen.Für all die genannten Probleme sind unsere Ziele (wie schon in der ersten Runde):beweisbar effiziente Algorithmen und Datenstrukturen; eine umfassende experimentelle Evaluation der Effizienz genauso wie der Qualität; open-source Software und ein öffentlich zugänglicher Demonstrator oder Prototyp; volle Reproduzierbarkeit entweder durch das Verfügbarmachen aller relevanten Materialien (wenn möglich) oder durch eine dedizierte Webanwendung.
DFG-Verfahren
Schwerpunktprogramme
Teilprojekt zu
SPP 1736:
Algorithmen für große Datenmengen