Detailseite
RoGeRL: Robustes und Generelles Reinforcement Learning via AutoML
Antragsteller
Professor Dr. Marius Lindauer
Fachliche Zuordnung
Künstliche Intelligenz und Maschinelle Lernverfahren
Förderung
Förderung seit 2024
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 555323245
Reinforcement Learning (RL) ermöglicht Lernen durch Interaktion mit der Umgebung. Daher ist es ein Bestandteil von KI-Systemen für sequenzielle Entscheidungen, z. B. in der Robotik, in Naturwissenschaften wie Physik oder Medizin oder bei großen Sprachmodellen. RL ist jedoch nicht nur leistungsfähig, sondern auch schwer anwendbar: Aktuelle Methoden sind tendenziell instabil, besitzen nur begrenzte Verallgemeinerungsfähigkeiten und ihr Erfolg hängt stark von ihren Designentscheidungen ab. Alle drei Faktoren stehen in Wechselwirkung zueinander, was Anpassungen erforderlich macht und somit die Forschung und Anwendung von RL mühsam und zeitaufwändig werden lässt. In den letzten Jahren haben Methoden des automatisierten RL (AutoRL) an Zugkraft gewonnen, um durch systematische und datengesteuerte Ansätze eine bessere Leistung, Robustheit und Trainingseffizienz zu erreichen. Allerdings gibt es noch keine allgemeinen und effizienten AutoRL-Methoden, keine etablierten Benchmarks und keine Ansätze für viele nicht standardisierte RL-Paradigmen wie unüberwachtes oder kontextuelles RL. Unser Ziel ist es, sowohl die Effizienz als auch die Robustheit von AutoRL zu verbessern, um eine breite Nutzung dieser Werkzeuge für RL-Anwender und Forscher gleichermaßen zu ermöglichen. Wir werden diese Methoden auch für Erweiterungen der typischen RL-Problemformulierung anwendbar machen, wie z.B. unüberwachtes und kontextuelles RL. Darüber hinaus werden wir die Fähigkeiten von AutoRL selbst erweitern, um das Lernen für mehrere RL Aufgaben mit einer einzigen Einstellung zu ermöglichen. Um dies zu erreichen, studieren wir empirisch die Eigenschaften von AutoRL Problemem aus verschiedenen Perspektiven, um Daten-basiert bessere Algorithmen für AutoRL zu entwickeln. Als Nächstes erweitern wir Multi-Fidelity-Optimierung für AutoRL, um die Budgetanforderungen zu verbessern und damit RL auch für kleine Rechenbudgets zugänglich zu machen. Danach werden wir Methoden zur Suche nach neuronalen Architekturen entwickeln, die der dynamischen Natur von RL gerecht werden. Um unsere Methoden auf unüberwachtes RL anwenden zu können, müssen wir schließlich zuverlässige Pipelines zur Leistungsschätzung für diesen speziellen Fall entwickeln, in dem wir für mehrere nachgelagerte Aufgaben vortrainieren. AutoRL wird dazu beitragen, das RL-Training zu demokratisieren und damit neue Möglichkeiten in allen Bereichen der RL-Forschung und -Anwendungen zu eröffnen. Als Ergebnis dieses Projekts werden wir (i) robuste und effiziente AutoRL-Systeme bereitstellen, die Anwendern bessere Ergebnisse mit geringerem Rechen\-aufwand liefern können, (ii) Protokolle und Einsichten bereitstellen, wie RL-Methoden auch in kleinen Labors effizient erforscht werden können, und (iii) AutoRL in Bezug auf Generalisierung stärken. Wir glauben, dass dies ein wesentlicher Schritt in Richtung allgemeiner RL-Agenten ist.
DFG-Verfahren
Sachbeihilfen