Project Details
Refinement of recent methods from statistical learning theory and their application to selected problems from statistical natural language processing
Applicant
Professor Dr. Hans Ulrich Simon
Subject Area
Theoretical Computer Science
Term
from 2002 to 2005
Project identifier
Deutsche Forschungsgemeinschaft (DFG) - Project number 5388169
Im hier beantragten Projekt untersuchen wir Probleme der algorithmischen und statistischen Lerntheorie und haben es insofern auch mit dem Problem der statistischen Inferenz zu tun. Obschon der historisch ältere Ansatz der parametrischen Inferenz in den zurückliegenden Jahrzehnten weitgehend vom Ansatz der nicht-parametrischen Inferenz abgelöst wurde, gibt es immer noch Domänen, in denen der parametrische Ansatz unzweifelhafte Vorzüge aufweist. Dies ist zum Beispiel der Fall bei vielen Problemen der statistischen Verarbeitung natürlicher Sprachen (statistisches "Natural Language Processing (NLP)"). Kernstück unseres Projektes ist die Kombination von Werkzeugen der parametrischen und nicht-parametrischen Inferenz. Insbesondere soll geklärt werden, inwieweit Kern-basierte empirische Risikominimierung die Vorzüge von parametrischen stochastischen Modellen ausnutzen oder gar in sich aufnehmen kann. Zur Erprobung dieses Grundgedankens betrachten wir drei ausgesuchte NLP-Probleme: "Part-of-Speech Tagging", "Probabilistic Parsing" und "Word Sense Disambiguation". Es werden Lösungsverfahren angestrebt, welche sowohl die korrespondierenden stochastischen Modelle sinnvoll ausnutzen als auch die Stärken der kernbasierten empirischen Risikominimierung. Auf den Entwurf geeigneter Kernfunktionen wird ein besonderes Augenmerk gerichtet. Ausgehend von diesem zentralem Thema des Projektes finden eine Reihe weiter verzweigter Untersuchungen statt. Dabei verfolgen wir die Absicht, neuere Methoden und Resultate der algorithmischen Lerntheorie auf dem Sektor der statistischen Sprachverarbeitung nutzbar und publik zu machen.
DFG Programme
Research Grants