Project Details
Projekt Print View

Semantic Cluster Analysis in Information Retrieval

Subject Area Security and Dependability, Operating-, Communication- and Distributed Systems
Term from 2009 to 2016
Project identifier Deutsche Forschungsgemeinschaft (DFG) - Project number 91548218
 
Final Report Year 2019

Final Report Abstract

Das DFG-CAIR-Projekt war eine Kollaboration zwischen dem Fachgebiet Informationssysteme der Fakultät für Ingenieurwissenschaften an der Universität Duisburg-Essen, sowie dem Lehrstuhl für Content Management und Web Technologien an der Bauhaus-Universität Weimar. Ziel des Projekts war die theoretische, methodische und experimentelle Erforschung von Prinzipien der semantischen Clusteranalyse im Information Retrieval. Im Retrieval versprechen Clusteranalyseverfahren unter Anderem eine bessere Unterstützung von Nutzern mit unpräzisen Informationsbedürfnissen bei der Exploration des Informationsraums. Sie leisten im weitesten Sinne die Zerlegung einer gegebenen Objektmenge in Gruppen, die aus den paarweisen Objektähnlichkeiten resultieren, und kombinieren zu diesem Zweck ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip. Während zu Projektbeginn der Fokus aktueller Forschung vor allem auf der Fusionierung lag, kann eine Clusteranalyse bei anspruchsvollen Problemen nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind, und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigt wird. Zu den wichtigsten wissenschaftlichen Fortschritten gehören auf theoretischer Ebene die Entwicklung des Optimum Clustering Frameworks (OCF), auf algorithmischer Ebene die Nutzbarmachung von Suchanfragen für Clustering und Labeling sowie deren Formalisierung im Konzept der Keyqueries. Auf Ebene der Evaluierung und Softwaretechnik ist die Entwicklung der Evaluationas-a-Service-Plattform Tira sowie des ezDL-Frameworks für interaktive Suchsysteme herauszuheben. Das OCF stellt erstmals einen theoretisch fundierten Zusammenhang zwischen dem einer Clusteranalyse zugrundeliegenden Ähnlichkeitsmaß, und dem Gütemaß zur Bewertung der Qualität des Clusterings her; auf dieser Grundlage war es nicht nur möglich, den Begriff des „optimalen Clusterings” zu formulieren, sie motiviert für den Retrieval-Kontext auch einen fundierten Zusammenhang zwischen Dokumentähnlichkeit und einer Anfragemenge. Somit bildet das OCF die Grundlage für unsere algorithmischen Beiträge zum Einsatz von Suchanfragen für Clustering und Labeling. Die Idee der Keyqueries – Suchanfragen als Deskriptoren für die Dokumentmengen, die sie im Kontext eines gegebenen Suchindexes zurückliefern – erwies sich in diesem Zusammenhang als besonders fruchtbar. Unsere Fortschritte im Bereich der Evaluierung sind weit über das Projekt hinaus von Bedeutung: Tira hat sich als Evaluation-as-a-Service-Plattform etabliert, und wird zunehmend von Forschern außerhalb unserer eigenen Arbeitsgruppen für reproduzierbare Experimente im Rahmen von Shared Tasks eingesetzt. Für ezDL ist die Nachnutzung als Integrationsplattform und zentrale Benutzerschnittstelle für wissensbasierte Personalisierung im Rahmen eines DFG-Graduiertenkollegs vorgesehen.

Publications

  • Beyond Precision@10: Clustering the Long Tail of Web Search Results. In B. Berendt, A. de Vries, W. Fan, C. Macdonald, I. Ounis, and I. Ruthven, editors, 20th ACM International Conference on Information and Knowledge Management (CIKM 2011), pages 2141–2144. ACM, Oct. 2011. ISBN 978-1-4503-0717-8
    B. Stein, T. Gollub, and D. Hoppe
    (See online at https://doi.org/10.1145/2063576.2063910)
  • Query Segmentation Revisited. In S. Srinivasan, K. Ramamritham, A. Kumar, M. Ravindra, E. Bertino, and R. Kumar, editors, 20th International Conference on World Wide Web (WWW 2011), pages 97–106. ACM, Mar. 2011
    M. Hagen, M. Potthast, B. Stein, and C. Bräutigam
    (See online at https://doi.org/10.1145/1963405.1963423)
  • Decentralized probabilistic text clustering. IEEE Transactions on Knowledge and Data Engineering, 24(10):1848–1861, 2012
    O. Papapetrou, W. Siberski, and N. Fuhr
    (See online at https://doi.org/10.1109/TKDE.2011.120)
  • Efficient hierarchical document clustering with a gpu. In Proceedings of the IR Workshop at LWA 2012, Dortmund, Germany, 2012
    M. Janc, M. Lechtenfeld, and N. Fuhr
  • Ousting Ivory Tower Research: Towards a Web Framework for Providing Experiments as a Service. In B. Hersh, J. Callan, Y. Maarek, and M. Sanderson, editors, 35th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2012), pages 1125–1126. ACM, Aug. 2012. ISBN 978-1-4503-1472-5
    T. Gollub, B. Stein, and S. Burrows
    (See online at https://doi.org/10.1145/2348283.2348501)
  • Result clustering supports users with vague information needs. In Proceedings of the 12th Dutch-Belgian Information Retrieval Workshop 2012, Ghent, Belgium, 2012
    M. Lechtenfeld and N. Fuhr
  • The optimum clustering framework: Implementing the cluster hypothesis. Information Retrieval, 15:93–115, 2012
    N. Fuhr, M. Lechtenfeld, B. Stein, and T. Gollub
    (See online at https://doi.org/10.1007/s10791-011-9173-9)
  • From Keywords to Keyqueries: Content Descriptors for the Web. In C. Gurrin, G. Jones, D. Kelly, U. Kruschwitz, M. de Rijke, T. Sakai, and P. Sheridan, editors, 36th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2013), pages 981–984. ACM, July 2013
    T. Gollub, M. Hagen, M. Michel, and B. Stein
    (See online at https://doi.org/10.1145/2484028.2484181)
  • Dynamic Taxonomy Composition via Keyqueries. In 14th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL 2014), pages 39–48. ACM/IEEE, Sept. 2014. ISBN 978-1-4799-5569-5
    T. Gollub, M. Völske, M. Hagen, and B. Stein
    (See online at https://doi.org/10.1109/JCDL.2014.6970148)
  • ezdl: An interactive IR framework, search tool, and evaluation system. In Professional Search in the Modern World - COST Action IC1002 on Multilingual and Multifaceted Interactive Information Access, pages 118–146, 2014
    T. Beckers, S. Dungs, N. Fuhr, M. Jordan, G. Kontokotsios, S. Kriewel, Y. Paraskeuopoulos, and M. Salampasis
    (See online at https://doi.org/10.1007/978-3-319-12511-4_7)
  • What Was the Query? Automatically Generating Queries for Document Sets with Applications in Cluster Labeling. In 19th International Conference on Applications of Natural Language to Information Systems (NLDB 2015), volume 9103 of Lecture Notes in Computer Science, pages 124–133, Berlin Heidelberg New York, June 2015. Springer
    M. Hagen, M. Michel, and B. Stein
    (See online at https://doi.org/10.1007/978-3-319-19581-0_10)
  • Supporting Scholarly Search with Keyqueries. In N. Ferro et al., editors, Advances in Information Retrieval. 38th European Conference on IR Research (ECIR 2016), volume 9626 of Lecture Notes in Computer Science, pages 507–520, Berlin Heidelberg New York, Mar. 2016. Springer
    M. Hagen, A. Beyer, T. Gollub, K. Komlossy, and B. Stein
    (See online at https://doi.org/10.1007/978-3-319-30671-1_37)
 
 

Additional Information

Textvergrößerung und Kontrastanpassung