Semantische Clusteranalyse im Information Retrieval
Zusammenfassung der Projektergebnisse
Das DFG-CAIR-Projekt war eine Kollaboration zwischen dem Fachgebiet Informationssysteme der Fakultät für Ingenieurwissenschaften an der Universität Duisburg-Essen, sowie dem Lehrstuhl für Content Management und Web Technologien an der Bauhaus-Universität Weimar. Ziel des Projekts war die theoretische, methodische und experimentelle Erforschung von Prinzipien der semantischen Clusteranalyse im Information Retrieval. Im Retrieval versprechen Clusteranalyseverfahren unter Anderem eine bessere Unterstützung von Nutzern mit unpräzisen Informationsbedürfnissen bei der Exploration des Informationsraums. Sie leisten im weitesten Sinne die Zerlegung einer gegebenen Objektmenge in Gruppen, die aus den paarweisen Objektähnlichkeiten resultieren, und kombinieren zu diesem Zweck ein Objektmodell, ein Ähnlichkeitsmaß und ein Fusionierungsprinzip. Während zu Projektbeginn der Fokus aktueller Forschung vor allem auf der Fusionierung lag, kann eine Clusteranalyse bei anspruchsvollen Problemen nur erfolgreich sein, wenn die drei Elemente aufeinander abgestimmt sind, und Wissen sowohl über die Analyseaufgabe als auch den Nutzer berücksichtigt wird. Zu den wichtigsten wissenschaftlichen Fortschritten gehören auf theoretischer Ebene die Entwicklung des Optimum Clustering Frameworks (OCF), auf algorithmischer Ebene die Nutzbarmachung von Suchanfragen für Clustering und Labeling sowie deren Formalisierung im Konzept der Keyqueries. Auf Ebene der Evaluierung und Softwaretechnik ist die Entwicklung der Evaluationas-a-Service-Plattform Tira sowie des ezDL-Frameworks für interaktive Suchsysteme herauszuheben. Das OCF stellt erstmals einen theoretisch fundierten Zusammenhang zwischen dem einer Clusteranalyse zugrundeliegenden Ähnlichkeitsmaß, und dem Gütemaß zur Bewertung der Qualität des Clusterings her; auf dieser Grundlage war es nicht nur möglich, den Begriff des „optimalen Clusterings” zu formulieren, sie motiviert für den Retrieval-Kontext auch einen fundierten Zusammenhang zwischen Dokumentähnlichkeit und einer Anfragemenge. Somit bildet das OCF die Grundlage für unsere algorithmischen Beiträge zum Einsatz von Suchanfragen für Clustering und Labeling. Die Idee der Keyqueries – Suchanfragen als Deskriptoren für die Dokumentmengen, die sie im Kontext eines gegebenen Suchindexes zurückliefern – erwies sich in diesem Zusammenhang als besonders fruchtbar. Unsere Fortschritte im Bereich der Evaluierung sind weit über das Projekt hinaus von Bedeutung: Tira hat sich als Evaluation-as-a-Service-Plattform etabliert, und wird zunehmend von Forschern außerhalb unserer eigenen Arbeitsgruppen für reproduzierbare Experimente im Rahmen von Shared Tasks eingesetzt. Für ezDL ist die Nachnutzung als Integrationsplattform und zentrale Benutzerschnittstelle für wissensbasierte Personalisierung im Rahmen eines DFG-Graduiertenkollegs vorgesehen.
Projektbezogene Publikationen (Auswahl)
- Beyond Precision@10: Clustering the Long Tail of Web Search Results. In B. Berendt, A. de Vries, W. Fan, C. Macdonald, I. Ounis, and I. Ruthven, editors, 20th ACM International Conference on Information and Knowledge Management (CIKM 2011), pages 2141–2144. ACM, Oct. 2011. ISBN 978-1-4503-0717-8
B. Stein, T. Gollub, and D. Hoppe
(Siehe online unter https://doi.org/10.1145/2063576.2063910) - Query Segmentation Revisited. In S. Srinivasan, K. Ramamritham, A. Kumar, M. Ravindra, E. Bertino, and R. Kumar, editors, 20th International Conference on World Wide Web (WWW 2011), pages 97–106. ACM, Mar. 2011
M. Hagen, M. Potthast, B. Stein, and C. Bräutigam
(Siehe online unter https://doi.org/10.1145/1963405.1963423) - Decentralized probabilistic text clustering. IEEE Transactions on Knowledge and Data Engineering, 24(10):1848–1861, 2012
O. Papapetrou, W. Siberski, and N. Fuhr
(Siehe online unter https://doi.org/10.1109/TKDE.2011.120) - Efficient hierarchical document clustering with a gpu. In Proceedings of the IR Workshop at LWA 2012, Dortmund, Germany, 2012
M. Janc, M. Lechtenfeld, and N. Fuhr
- Ousting Ivory Tower Research: Towards a Web Framework for Providing Experiments as a Service. In B. Hersh, J. Callan, Y. Maarek, and M. Sanderson, editors, 35th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2012), pages 1125–1126. ACM, Aug. 2012. ISBN 978-1-4503-1472-5
T. Gollub, B. Stein, and S. Burrows
(Siehe online unter https://doi.org/10.1145/2348283.2348501) - Result clustering supports users with vague information needs. In Proceedings of the 12th Dutch-Belgian Information Retrieval Workshop 2012, Ghent, Belgium, 2012
M. Lechtenfeld and N. Fuhr
- The optimum clustering framework: Implementing the cluster hypothesis. Information Retrieval, 15:93–115, 2012
N. Fuhr, M. Lechtenfeld, B. Stein, and T. Gollub
(Siehe online unter https://doi.org/10.1007/s10791-011-9173-9) - From Keywords to Keyqueries: Content Descriptors for the Web. In C. Gurrin, G. Jones, D. Kelly, U. Kruschwitz, M. de Rijke, T. Sakai, and P. Sheridan, editors, 36th International ACM Conference on Research and Development in Information Retrieval (SIGIR 2013), pages 981–984. ACM, July 2013
T. Gollub, M. Hagen, M. Michel, and B. Stein
(Siehe online unter https://doi.org/10.1145/2484028.2484181) - Dynamic Taxonomy Composition via Keyqueries. In 14th ACM/IEEE-CS Joint Conference on Digital Libraries (JCDL 2014), pages 39–48. ACM/IEEE, Sept. 2014. ISBN 978-1-4799-5569-5
T. Gollub, M. Völske, M. Hagen, and B. Stein
(Siehe online unter https://doi.org/10.1109/JCDL.2014.6970148) - ezdl: An interactive IR framework, search tool, and evaluation system. In Professional Search in the Modern World - COST Action IC1002 on Multilingual and Multifaceted Interactive Information Access, pages 118–146, 2014
T. Beckers, S. Dungs, N. Fuhr, M. Jordan, G. Kontokotsios, S. Kriewel, Y. Paraskeuopoulos, and M. Salampasis
(Siehe online unter https://doi.org/10.1007/978-3-319-12511-4_7) - What Was the Query? Automatically Generating Queries for Document Sets with Applications in Cluster Labeling. In 19th International Conference on Applications of Natural Language to Information Systems (NLDB 2015), volume 9103 of Lecture Notes in Computer Science, pages 124–133, Berlin Heidelberg New York, June 2015. Springer
M. Hagen, M. Michel, and B. Stein
(Siehe online unter https://doi.org/10.1007/978-3-319-19581-0_10) - Supporting Scholarly Search with Keyqueries. In N. Ferro et al., editors, Advances in Information Retrieval. 38th European Conference on IR Research (ECIR 2016), volume 9626 of Lecture Notes in Computer Science, pages 507–520, Berlin Heidelberg New York, Mar. 2016. Springer
M. Hagen, A. Beyer, T. Gollub, K. Komlossy, and B. Stein
(Siehe online unter https://doi.org/10.1007/978-3-319-30671-1_37)