Detailseite
Paralleles Training von Support-Vector-Maschinen mit Budget
Antragsteller
Professor Dr. Tobias Glasmachers
Fachliche Zuordnung
Bild- und Sprachverarbeitung, Computergraphik und Visualisierung, Human Computer Interaction, Ubiquitous und Wearable Computing
Förderung
Förderung von 2019 bis 2023
Projektkennung
Deutsche Forschungsgemeinschaft (DFG) - Projektnummer 418003699
Maschinelles Lernen beschäftigt sich mit der datengetriebenen und dahervollautomatischen Erstellung von Verhersagemodellen. Das Feld verbindetElements aus Statistk, Informatik und Optimierung. Support-Vektor-Maschinen(SVM) sind eine Standardmethod, insbesondere für Klassifikationsprobleme.Sie finden in allen Bereichen aus Wissenschaft und Technik Verwendung,z.B. Bioinformatik, Robotik, medizinische Diagnostik und Textanalyse.Schnelles SVM-Training.Das Training einer nichtlinearen SVM entspricht der Lösung eines großenOptimierungsproblems. Die Anzahl der Variablen entspricht derDatenmenge. Mit vielen Millionen Beobachtungen wird das Training extremrechenintensiv. Das Problem steht in direktem Zusammenhang zumunbegrenzten Wachstum des Modells mit der Datensatzgröße.Zur Lösung dieses Problems wurde eine Vielzahl vonApproximationsmethoden entworfen. Unter diesen ist die Budget-Methodeein sehr vielversprechender Ansatz. Durch die a-priori Begrenzung derModellgröße erreicht sie eine datensatzunabhängige Auswertungszeit.Durch eine datenabhängige hochflexible Repräsentation der Lösungerreicht sie dennoch hohe Vorhersagegenauigkeit.So bleibt die für Kernmethoden typische Flexibilitäterhalten. Wir haben vor kurzem den ersten dualenDekompositionsalgorithmus mit Budget entwickelt. Dieser beschleunigt denStand der Technik signifikant.Ein alternativer Ansatz zum schnellen SVM-Training ist Parallelisierung.Trotz der Entwicklung einer Vielzahl paralleler Algorithmen wurde erstkürzlich ein überzeugender Ansatz Vorgeschlagen: Durch Nutzung einermodernen Grafikkarte (GPU) schlägt ThunderSVM die sequenzielleStandardsoftware LIBSVM um mindestens zwei Größenordnungen. DiesesResultat passt ideal in den Trend, die massiv parallele Rechenleistungvon GPUs für maschinelles Lernen zu nutzen. GPUs sind in diesem Bereichlängst zu Standardhardware avanciert, und ein Ende dieses Trends ist fürdie absehbare Zukunft nicht in Sicht.Projektziele.Das zentrale Projektziel ist die Kombination dieser beiden Ansätze zueinem neuen Trainingsalgorithmus. Dazu werden wir denParallelisierungsansatz von ThunderSVM mit unserem dualenBudget-Algorithmus kombinieren. Wenn die schnellen Iterationen derBudgetmethode hochgradig parallel auf einer GPU ausgeführt werden,könnten sich die Beschleunigungen der beiden Methoden multiplizieren.Während diese Annahme überoptimistisch wäre, erwarten wir zumindesteinen substanziellen Fortschritt sowohl im Vergleich zu unseremsequenziellen Budget-Algorithmus wie auch gegenüber ThunderSVM.Ein weiteres Ziel ist, die etablierte Technik des Entfernens vonVariablen während der Optimierung und einen Cache für Kernauswertungennutzbar zu machen.Weiterhin sollen Lerngarantien für den Algorithmus entwickelt werden.Ein nicht zu unterschätzender Beitrag wird eine effiziente open-sourceImplementierung für Hochleistungs-GPUs darstellen.
DFG-Verfahren
Sachbeihilfen