direkt zum Inhalt springen

direkt zum Hauptnavigationsmenü

Sie sind hier

TU Berlin

Inhalt des Dokuments

Systemarchitektur für eine effiziente Kommunikation im verteilten Maschinellen Lernen

Lupe

Das Software Campus [1] Projekt LAPSE zielt darauf ab, eine Softwarearchitektur zu entwickeln, die Kommunikationskosten in Anwendungen verteilten Maschinellen Lernens niedrig hält.

Problem. Für das Trainieren von Modellen des Maschinellen Lernens (ML) auf Clustern im Gegensatz zum Training auf einzelnen Maschinen, muss beides gesteigert werden, die Leistungsfähigkeit der Computer und der verfügbare Speicher. Auf jeden Fall erfordert es darüber hinaus Kommunikation zwischen den Clusterknoten, um die Modellparameter zu synchronisieren. Für einige ML-Modelle kann die Synchronisation den Trainingsprozess so dominieren, dass die Vorteile der Einbeziehung eines Clusters negiert werden.

Lösung. Um die Kommunikationsaktivitäten zwischen den Knoten zu verringern, haben Forscher Algorithmen entwickelt, die die Lokalität ausnutzen, indem die Workerknoten zu einer bestimmten Zeit nur einen bestimmten Teil der Modellparameter synchronisieren. Typischerweise werden auf den Workerknoten über die gesamte Trainingszeit hinweg unterschiedliche Parameter aktualisiert.
Algorithmen, die die Lokalität ausnutzen (LEA) existieren für verschiedene Typen von ML-Modellen. Die Lokalität kann aus den Trainingsalgorithmen, dem ML-Modell oder den Trainingsdaten stammen

Ziele. Normalerweise implementieren ML-Entwickler LEA-Algorithmen von Grund auf neu. Dazu müssen sie technische Detailkenntnisse über verteilte Computersysteme besitzen. Im LAPSE Projekt zielen wir darauf ab, ein System zu entwickeln, das Forschern und Praktikern gleichermaßen eine LEA Implementierung ermöglicht ohne tiefergehendes Wissen bzgl. verteilter Systeme zu haben.

Ergebnis. Eine neue State-of-the-Art Architektur für verteiltes maschinelles Lernen, die die Erfordernisse von Parameterservern erfüllt sowie nützlich und effizient für LEAs ist. Unsere Intention ist es, eine Lösung zu liefern, die für unterschiedliche ML-Applikationen einsetzbar ist und bei der Entwicklung fortgeschrittener ML basierter Lösungen für heutige gesellschaftliche Herausforderungen hilft.

Lupe

Das LAPSE Projekt wird als Teil des Software Campus Programms vom Bundesministerium für Bildung und Forschung gefördert und von TRUMPF unterstützt.

[1] Software Campus

Gefördert vom Bundesministerium für Bildung und Forschung (BMBF) ist Software Campus (SC) ein Führungskräfteentwicklungsprogramm um die IT–Führungskräfte von morgen auszubilden. SC verknüpft Spitzenforschung und Managementpraxis auf eine neuartige, innovative Art und Weise. Es richtet sich an hervorangende Doktorandinnen und Doktoranden der Informatik, die daran interessiert sind, zukünftig Führungsaufgaben in der Wirtschaft zu übernehmen. Die Teilnemenden setzen in Kooperation mit Industriepartnern während ein bis zwei Jahren ihr eigenes Forschungsprojekt um.

Kickoff des Jahrgangs 2017

Projektdauer: 01/2019 - 12/2020

Supervisor: Prof. Dr. Volker Markl

Industriepartner

Lupe
Lupe

Zusatzinformationen / Extras

Direktzugang:

Schnellnavigation zur Seite über Nummerneingabe