Detailseite
Projekt Druckansicht

Inhaltsbasierte Suche von Textdokumenten in großen verteilten Systemen - Search for text documents in large distributed systems

Fachliche Zuordnung Sicherheit und Verlässlichkeit, Betriebs-, Kommunikations- und verteilte Systeme
Förderung Förderung von 2004 bis 2009
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 5419460
 
Das World Wide Web (WWW) stellt den größten elektronisch verfügbaren Informationsbestand dar. Das sehr große Volumen und die extrem hohe Dynamik dieses Datenbestandes, wie auch die unterschiedliche Qualität der im WWW verfügbaren Daten werfen vielfältige neue Probleme bei der Informationssuche auf. Diese Herausforderung kann durch zentrale Suchmaschinen (wie etwa Google und Altavista) und Web Directories (wie etwa Yahoo) nur teilweise bewältigt werden. Der hauptsächliche Nachteil dieser zentralen Systeme liegt in der gewaltigen Größe der von ihnen verwalteten Datenbestände und der daraus resultierenden mangelnden Flexibilität. Daneben sind in den letzten Jahren vollkommen dezentral organisierte Peer-to-Peer (P2P) Systeme für die Suche und den Austausch von speziellen Informationen (z.B. Daten im mp3-Format) entwickelt worden. Der Vorteil dieser Systeme liegt in der hohen Flexibilität mit der sie sich den wechselnden Informationsbedürfnissen ihrer Nutzer anpassen. Dem entgegen stehen ernste Probleme hinsichtlich ihrer Skalierbarkeit. In dem geplanten Projekt sollen Verfahren entwickelt werden, welche es für die Suche nach Textdokumenten ermöglichen, die Vorteile der beiden Ansätze miteinander zu kombinieren und gleichzeitig deren Nachteile weitestgehend vermeiden. Als Ausgangspunkt dient dabei die Überlegung, dass der Erfolg einer Informationssuche zu einem gewissen Teil immer auch auf dem in der sozialen Struktur einer Gesellschaft implizit gespeicherten Wissen beruht. Vereinfachend ausgedrückt, ist es oftmals hinreichend zu wissen, wer Kenntnisse über einen fraglichen Gegenstand besitzt, um die gewünschte Information zu lokalisieren. Dieser Vorgang soll im Unterschied zu ontologiebasierten Ansätzen des Semantic Web durch den Einsatz von Text Mining Methoden zur automatischen semantischen Analyse von natürlichsprachlichen Texten in P2P Systemen nachempfunden werden. Die Schaffung der Grundlagen für solche Systeme, die prototypische Implementierung eines entsprechenden P2P Systems, mit dem Textdokumente unter Verwendung semantischer Kriterien gesucht werden, sowie dessen Evaluierung bilden den Gegenstand des beantragten Projektes.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung