Ziel des Projektes war die Entwicklung einer Kamera basierten Steuerungsarchitektur für einen Roboter und eines Lernverfahrens, das die Steuerung weitgehend autonom auf die Umgebung anpassen sollte. Im Antrag wurde als erster Ansatz eine Netzwerkstruktur namens Leabra vorgeschlagen. Diese stellte sich in Untersuchungen jedoch als nicht praxistauglich heraus. Als Alternative wurde eine Architektur entwickelt, die aus einem hierarchischen Netzwerk zur visuellen Verarbeitung und einem Verfahren aus dem Reinforcement Learning zur Steuerung bestand. Mit diesem Ansatz gelang es eine funktionierende Robotersteuerung zu erstellen. Die Architektur wurde auf einem eigens entwickelten Simulator und an einem Roboter getestet. Kernstück der visuellen Verarbeitung stellt ein Lernverfahren namens Slow Feature Analysis (SFA) dar. Mit Hilfe der SFA war es uns möglich eine zur Umbegung passende visuelle Verarbeitung zu erlernen, ohne das Vorwissen über diese Umgebung eingebracht werden musste. Die Anwendung der SFA wurde von einer Reihe von theoretischen Untersuchungen begleitet; so wurde unter anderem ein Verfahren entwickelt das sparse Lösungen produziert. Sparse Lösungen führen unter anderem zu einer Reduktion des Rechenaufwands für die Anwendung eines Filters. Der Steuerungsteil der Architektur basiert auf einer Value-Policy Iteration, wobei zur Value Schätzung der Least Squares Temporal Difference Schätzer (LSTD) verwendet wurde. Im Projekt wurden weiterhin theoretische Untersuchungen zu diesem Schätzer angestellt. So konnte unter anderem gezeigt werden das der LSTD Schätzer für azykliche Markov Reward Processes (MRPs) optimal ist in der Klasse der unbiased Schätzer. Weiterhin wurde gezeigt das in speziellen Fällen der Schätzer equivalent ist zu dem Monte Carlo Schätzer, welcher deutlich weniger Rechenleistung benötigt. Neben der Untersuchung von Value Schätzern wurden Verfahren zur Risiko-Sensitiven Steuerung und zur Steuerung von Partially Observable Markov Decision Processes (POMDPs) entwickelt. In Roboterexperimenten erreichten wir für die auf der SFA und LSTD basierten Steuerung eine Erfolgsquote von zirka 80% für einfache Navigationsaufgaben.