Project Details
Aktionsplan-Informatik: Text-Mining: Wissenentdeckung in Text-Sammlungen und Effizienz von Dokumentenverarbeitungsprozessen
Applicant
Professor Dr. Tobias Scheffer
Subject Area
Security and Dependability, Operating-, Communication- and Distributed Systems
Term
from 2003 to 2010
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5401462
Ein Ziel besteht in der Weiterentwicklung und Untersuchung der Eigenschaften effizienter Algorithmen zum aktiven Lernen von Sequenzmodellen aus großen Textmengen. Solche statistischen, lernfähigen Verfahren ermöglichen es, Textanalysemodelle automatisch aus Sammlungen von Beispieltexten zu generieren. Sie sind in der Lage, Texte zu klassifizieren, zu segmentieren und Informationen daraus zu extrahieren und in strukturierter Form abzulegen. Auf Grundlage statistischer Textmodelle eröffnen sich zahlreiche Möglichkeiten, die Verarbeitung von Dokumenten zu unterstützen und dadurch Effizienz zu gewinnen. Während Text-Mining-Verfahren wie Markov-Modelle es ermöglichen, Informationen aus Texten zu extrahieren und zu strukturieren, können Data-Mining-Verfahren in strukturierten Datensammlungen Wissen in Form von Regeln, Mustern oder Zusammenhängen gewinnen. Ein weiteres Ziel ist die Entwicklung und Untersuchung von Verfahren, die eine Verzahnung dieser beiden Schritte leisten und es damit ermöglichen, Wissen in unstrukturierten Textsammlungen zu entdecken. Umfassendes Ziel des Projektes ist die Kombination von Wissensentdeckung in Textsammlungen und der Unterstützung von Dokumentenverarbeitungsprozessen. Erst das durch die Analyse archivierter Texte gewonnene Wissen ermöglicht die Unterstützung zukünftiger Prozesse durch neu zu entwickelnde Verfahren. Exemplarisch soll dafür eine Komplettierungsfunktion für natürlichsprachliche Texte entwickelt und untersucht werden. Basierend auf gespeicherten, in der Vergangenheit geschriebenen Texten soll das Text-MiningSystem ein statistisches Textmodell generieren, das häufig verwendete Formulierungen und deren semantischen Kontext beschreibt. In der Anwendungsphase soll das System den Inhalt eines Textfragmentes analysieren und feststellen, ob aufgrund des semantischen Kontextes und in der Vergangenheit geschriebener Texte die Fortsetzung einer Textpassage mit hoher Konfidenz vorhergesagt und dem Benutzer vorgeschlagen werden kann. Eine zu untersuchende Anwendung ist der Einsatz in einem Email-Client. Hier wird ein statistisches Textmodell aus gespeicherten Emails gelernt. Nach Analyse einer eingehenden Email (und eventuell eines Antwort-Fragmentes) soll das System einen Antworttext vorschlagen, der in ähnlicher Form häufig auf Emails ähnlichen Inhalts erwidert wurde.
DFG Programme
Independent Junior Research Groups