Detailseite
Projekt Druckansicht

Semantische Clusteranalyse im Information Retrieval

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2009 bis 2016
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 91548218
 
Erstellungsjahr 2019

Zusammenfassung der Projektergebnisse

Das DFG-CAIR-Projekt war eine Kollaboration zwischen dem Fachgebiet Informationssysteme der Fakultät für Ingenieurwissenschaften an der Universität Duisburg-Essen, sowie dem Lehrstuhl für Content Management und Web Technologien an der Bauhaus-Universität Weimar. Ziel des Projekts war die theoretische, methodische und experimentelle Erforschung von Prinzipien der semantischen Clusteranalyse im Information Retrieval. Im Retrieval versprechen Clusteranalyseverfahren unter Anderem eine bessere Unterstützung von Nutzern mit unpräzisen Informationsbedürfnissen bei der Exploration des Informationsraums. Sie leisten im weitesten Sinne die Zerlegung einer gegebenen Objektmenge in Gruppen, die aus den paarweisen Objektähnlichkeiten resultieren, und kombinieren zu diesem Zweck ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip. Während zu Projektbeginn der Fokus aktueller Forschung vor allem auf der Fusionierung lag, kann eine Clusteranalyse bei anspruchsvollen Problemen nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind, und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigt wird. Zu den wichtigsten wissenschaftlichen Fortschritten gehören auf theoretischer Ebene die Entwicklung des Optimum Clustering Frameworks (OCF), auf algorithmischer Ebene die Nutzbarmachung von Suchanfragen für Clustering und Labeling sowie deren Formalisierung im Konzept der Keyqueries. Auf Ebene der Evaluierung und Softwaretechnik ist die Entwicklung der Evaluationas-a-Service-Plattform Tira sowie des ezDL-Frameworks für interaktive Suchsysteme herauszuheben. Das OCF stellt erstmals einen theoretisch fundierten Zusammenhang zwischen dem einer Clusteranalyse zugrundeliegenden Ähnlichkeitsmaß, und dem Gütemaß zur Bewertung der Qualität des Clusterings her; auf dieser Grundlage war es nicht nur möglich, den Begriff des „optimalen Clusterings” zu formulieren, sie motiviert für den Retrieval-Kontext auch einen fundierten Zusammenhang zwischen Dokumentähnlichkeit und einer Anfragemenge. Somit bildet das OCF die Grundlage für unsere algorithmischen Beiträge zum Einsatz von Suchanfragen für Clustering und Labeling. Die Idee der Keyqueries – Suchanfragen als Deskriptoren für die Dokumentmengen, die sie im Kontext eines gegebenen Suchindexes zurückliefern – erwies sich in diesem Zusammenhang als besonders fruchtbar. Unsere Fortschritte im Bereich der Evaluierung sind weit über das Projekt hinaus von Bedeutung: Tira hat sich als Evaluation-as-a-Service-Plattform etabliert, und wird zunehmend von Forschern außerhalb unserer eigenen Arbeitsgruppen für reproduzierbare Experimente im Rahmen von Shared Tasks eingesetzt. Für ezDL ist die Nachnutzung als Integrationsplattform und zentrale Benutzerschnittstelle für wissensbasierte Personalisierung im Rahmen eines DFG-Graduiertenkollegs vorgesehen.

Projektbezogene Publikationen (Auswahl)

 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung