Detailseite
Online-Präferenzlernen mit Bandit-Algorithmen
Antragsteller
Professor Dr. Eyke Hüllermeier, seit 3/2017
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2017 bis 2022
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 317046553
Im Bereich des maschinellen Lernens fasst man unter dem Begriff des mehrarmigen Banditen (multi-armed bandit, MAB) eine Klasse von Online-Lernproblemen zusammen, in denen ein Agent sein Entscheidungsverhalten im Rahmen eines sequenziellen Entscheidungsprozesses optimiert. MABs verbinden praktische Nützlichkeit mit theoretisch interessanten Fragestellungen und haben sich nicht zuletzt deshalb als wichtiges Forschungsthema etabliert. Dieses Projekt widmet sich einer neuen Variante des MAB Problems, das wir als präferenzbasierten mehrarmigen Banditen (PB-MAB) bezeichnen. Anstatt aus stochastischem Feedback in der Form reellwertiger Nutzenwerte für die Wahl einzelner Alternativen zu lernen, kann ein PB-MAB Agent jeweils zwei Alternativen qualitativ miteinander vergleichen. Dieses Projekt verfolgt zwei zentrale Ziele. Durch Konsolidierung bestehender Arbeiten und die Beantwortung offener theoretischer und algorithmischer Fragen soll zunächst ein möglichst vollumfängliches Verständnis des PB-MAB Problems erlangt werden. Darüber hinaus sollen Methoden für praktisch motivierte Erweiterungen des Problems entwickelt werden, und zwar einmal für kontextualisierte PB-MABs, bei denen Präferenzen zwischen Alternativen vom jeweiligen Entscheidungskontext abhängen, und zum anderen PB-MABs mit verallgemeinertem Feedback, die über paarweise Vergleiche hinausgehend Präferenzinformation allgemeinerer Natur zulassen.
DFG-Verfahren
Sachbeihilfen
Ehemaliger Antragsteller
Dr. Robert Busa-Fekete, bis 2/2017