Kann Ray Aufgaben an Synchronisierungspunkten anhalten/fortsetzen, wenn die GPUs begrenzt sind? - Programmiererforum

Kann Ray Aufgaben an Synchronisierungspunkten anhalten/fortsetzen, wenn die GPUs begrenzt sind? ⇐ Python

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Anonymous

Kann Ray Aufgaben an Synchronisierungspunkten anhalten/fortsetzen, wenn die GPUs begrenzt sind?

Report
Quote

Post by Anonymous » 27 Dec 2025, 16:32

Ich trainiere mehrere neuronale Netzwerke parallel mit Ray, wobei Netzwerke an bestimmten Punkten während des Trainings (nicht nur nach Abschluss) synchronisiert werden müssen, um Metadaten auszutauschen und Hyperparameter basierend auf kollektiven Ergebnissen zu aktualisieren.
Mein Setup:

32 Netzwerke müssen parallel trainiert werden
Nur 16 GPUs verfügbar
Netzwerke müssen an den angegebenen Grenzen synchronisiert werden (z. B. alle N Trainingsschritte)
An Synchronisierungspunkten tauschen alle Netzwerke Metadaten aus, bevor eines zum nächsten Grenzpunkt übergehen kann

Das Problem:
Rays Standardverhalten stellt Aufgaben in die Warteschlange und führt sie bis zum Abschluss aus. Aber ich brauche Ray, um:

Netzwerk auf GPU bis zum Synchronisierungspunkt zu trainieren
GPU für eine in der Warteschlange befindliche Aufgabe anzuhalten/auszugeben
Das angehaltene Netzwerk nach dem Synchronisierungspunkt fortzusetzen

Frage: Kann Ray Aufgaben an beliebigen Punkten (nicht abgeschlossen) überprüfen und anhalten, GPU-Ressourcen für andere Aufgaben freigeben und dann später fortfahren? Oder unterstützt Ray nur Aufgabenwarteschlangen, bei denen jede Aufgabe ununterbrochen bis zum Abschluss ausgeführt wird?
Wenn Ray dies nicht kann, welche Alternativen gibt es dann für synchronisiertes paralleles Training mit begrenzten GPU-Ressourcen?
Außerdem verwenden die von mir ausgeführten Programme JAX, um die neuronalen Netze zu trainieren

1766849557

Anonymous

Ich trainiere mehrere neuronale Netzwerke parallel mit Ray, wobei Netzwerke an bestimmten Punkten während des Trainings (nicht nur nach Abschluss) synchronisiert werden müssen, um Metadaten auszutauschen und Hyperparameter basierend auf kollektiven Ergebnissen zu aktualisieren.
Mein Setup:
[list]
[*]32 Netzwerke müssen parallel trainiert werden
[*]Nur 16 GPUs verfügbar
[*]Netzwerke müssen an den angegebenen Grenzen synchronisiert werden (z. B. alle N Trainingsschritte)
[*]An Synchronisierungspunkten tauschen alle Netzwerke Metadaten aus, bevor eines zum nächsten Grenzpunkt übergehen kann
[/list]
Das Problem:
Rays Standardverhalten stellt Aufgaben in die Warteschlange und führt sie bis zum Abschluss aus. Aber ich brauche Ray, um:
[list]
[*]Netzwerk auf GPU bis zum Synchronisierungspunkt zu trainieren
[*]GPU für eine in der Warteschlange befindliche Aufgabe anzuhalten/auszugeben
[*]Das angehaltene Netzwerk nach dem Synchronisierungspunkt fortzusetzen
[/list]
Frage: Kann Ray Aufgaben an beliebigen Punkten (nicht abgeschlossen) überprüfen und anhalten, GPU-Ressourcen für andere Aufgaben freigeben und dann später fortfahren? Oder unterstützt Ray nur Aufgabenwarteschlangen, bei denen jede Aufgabe ununterbrochen bis zum Abschluss ausgeführt wird?
Wenn Ray dies nicht kann, welche Alternativen gibt es dann für synchronisiertes paralleles Training mit begrenzten GPU-Ressourcen?
Außerdem verwenden die von mir ausgeführten Programme JAX, um die neuronalen Netze zu trainieren

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Kann Ray Aufgaben an Synchronisierungspunkten anhalten/fortsetzen, wenn die GPUs begrenzt sind?

Last post by Anonymous « 24 Dec 2025, 14:51
Posted in Python

by Anonymous » 24 Dec 2025, 14:51 » in Python

Ich trainiere mehrere neuronale Netzwerke parallel mit Ray, wobei Netzwerke an bestimmten Punkten während des Trainings (nicht nur nach Abschluss) synchronisiert werden müssen, um Metadaten...

0 Replies

9 Views

Last post by Anonymous
24 Dec 2025, 14:51
Wie kann ich auf die Aufzählung von Aufgaben warten und anhalten, wenn eine Reihe von Aufgaben erledigt sind?

Last post by Anonymous « 11 Apr 2025, 19:23
Posted in C#

by Anonymous » 11 Apr 2025, 19:23 » in C#

Ich habe eine Reihe von Aufgaben, die identische Jobs ausführen, aber verschiedene Parameter auf verschiedenen Servern verwenden. Es könnte auftreten, dass einer der Server nicht mehr...

0 Replies

69 Views

Last post by Anonymous
11 Apr 2025, 19:23
Warum sind pthread_setname_np und pr_set_name auf 16 Bytes begrenzt?

Last post by Anonymous « 02 Apr 2025, 08:27
Posted in Linux

by Anonymous » 02 Apr 2025, 08:27 » in Linux

Warum sind pthread_setname_np und pr_set_name auf 16 Bytes beschränkt?
Linux-Prozesse können viel längere Namen haben, z.

0 Replies

31 Views

Last post by Anonymous
02 Apr 2025, 08:27
Vorgegebene Aufgaben und Programmierer lösen die Aufgaben in kürzerer Zeit

Last post by Guest « 23 Jan 2025, 04:52
Posted in Java

by Guest » 23 Jan 2025, 04:52 » in Java

Ich habe eine Liste von Aufgaben der Größe n und die zur Verarbeitung benötigte Zeit wird als Aufgaben dargestellt, wobei i der Index für die Aufgabe ist.
Verarbeitungsschritt: Diese Aufgaben...

0 Replies

58 Views

Last post by Guest
23 Jan 2025, 04:52
Wie man mit Aufgaben umgeht, die vom Ergebnis anderer Aufgaben abhängen

Last post by Anonymous « 17 Dec 2025, 19:29
Posted in Java

by Anonymous » 17 Dec 2025, 19:29 » in Java

Ich habe eine Liste mit Elementen – für jedes Element möchte ich eine Nachricht senden. Aber ich möchte nicht meine Liste durchgehen und alle Nachrichten auf einmal senden – wenn Nachricht 1...

0 Replies

6 Views

Last post by Anonymous
17 Dec 2025, 19:29

Return to “Python”