Detailseite
Projekt Druckansicht

Ressourcen-intensive und Daten-intensive Methoden für Robuste Feinkörnige Sentiment-Analyse

Fachliche Zuordnung Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung Förderung von 2014 bis 2018
Projektkennung Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 253706877
 
Dieser Antrag befasst sich mit Mängeln der Sentimentanalyse auf Ausdrucksebene. Diese feingranulare Ebene wurde in vorangehenden Arbeiten weniger untersucht, obgleich sie für praktische Anwendungen wie Opinion Question Answering oder Opinion Summarization unverzichtbar ist. Die sogenannten Polaritätsausdrücke stellen die wichtigste Klasse von Ausdrücken dar, mit denen sich die Sentimentanalyse beschäftigt. Dazu gehören Wörter wie schön und schrecklich, die positive oder negative Urteile ausdrücken. Für diese Klasse von Ausdrücken konzentrieren wir uns auf das Problem der unbekannten Wörter. Dabei soll morphologische Analyse sowohl zur Zerlegung als auch zur Synthese von Wörtern angewandt werden. Weiterhin befassen wir uns mit polarer Intensität. Wir planen, unterschiedliche automatische Methoden untereinander und mit menschlichen Urteilen zu vergleichen. Wir werden auch Lexika mit unterschiedlichen Typen von Valenzshiftern erzeugen. Shifter sind für Klassifikation im Kontext essentiell, da sie die Polarität von Polaritätsausdrücken modifizieren bzw. sogar umkehren. Bisher wurde Valenzshifting meist einfach mit Negation gleichgesetzt. Im Hinblick auf die Entitätenextraktion bei der Sentimentanalyse, also die Extraktion von Opinion Holders und Targets, sollen neue Lexika entwickelt werden, die als Grundlage von regelbasierten Systemen dienen können. Um die genannten Aufgaben zu bewältigen, werden wir sowohl ressourcenintensive Methoden, d.h. regelbasierte Methoden, die sehr tiefe semantische Repräsentationen verwenden, als auch datenintensive Methoden, d.h. korpusbasierte Methoden, die ebenfalls gängige NLP Werkzeuge verwenden, verwenden. Diese Aufgaben sollen für Englisch und Deutsch untersucht werden. Da sich die Forschung auf dem Gebiet der natürlichen Sprachverarbeitung stark auf das Englische fokussiert, existieren für diese Sprache recht hochentwickelte Ressourcen, die die Untersuchung von tiefen linguistischen Methoden erlauben. Für das Deutsche stehen solche Ressourcen nicht bereit. Folglich müssen flachere, typischerweise datenintensive Methoden angewandt werden. Ein weiterer Beitrag dieses Projekts ist, dass wir vor allem für das Deutsche neue Ressourcen, wie etwa Lexika und Werkzeuge, speziell für die Sentimentanalyse schaffen werden. In Verbindung mit dem Vergleich von ressourcenintensiven und datenintensiven Methoden soll auch die Frage beantwortet werden, welche Art von Repräsentation für die unterschiedlichen Klassifikations- und Extraktionsaufgaben in der feingranularen Sentimentanalyse am geeignetsten sind. In diesem Kontext werden wir kritisch die Eignung von traditionellen lemmabasierten Repräsentationen hinterfragen und ihnen alternative, z.B. bedeutungsbasierte Ebenen gegenüberstellen. Schließlich planen wir, die etablierten Evaluationsmethoden dahingehend zu überprüfen, ob sie hinreichend offenlegen, welche Phänomene eine automatische Analyse gut bzw. schlecht bewältigt.
DFG-Verfahren Sachbeihilfen
 
 

Zusatzinformationen

Textvergrößerung und Kontrastanpassung