Mein Setup:
- 32 Netzwerke müssen parallel trainiert werden
- Nur 16 GPUs verfügbar
- Netzwerke müssen an den angegebenen Grenzen synchronisiert werden (z. B. alle N Trainingsschritte)
- An Synchronisierungspunkten tauschen alle Netzwerke Metadaten aus, bevor eines zum nächsten Grenzpunkt übergehen kann
Rays Standardverhalten stellt Aufgaben in die Warteschlange und führt sie bis zum Abschluss aus. Aber ich brauche Ray, um:
- Netzwerk auf GPU bis zum Synchronisierungspunkt zu trainieren
- GPU für eine in der Warteschlange befindliche Aufgabe anzuhalten/auszugeben
- Das angehaltene Netzwerk nach dem Synchronisierungspunkt fortzusetzen
Wenn Ray dies nicht kann, welche Alternativen gibt es dann für synchronisiertes paralleles Training mit begrenzten GPU-Ressourcen?
Außerdem verwenden die von mir ausgeführten Programme JAX, um die neuronalen Netze zu trainieren
Mobile version