Belohnung für DDPG Deep Learning [geschlossen]

Belohnung für DDPG Deep Learning [geschlossen] ⇐ Python

1 post • Page 1 of 1

Anonymous

Belohnung für DDPG Deep Learning [geschlossen]

Report
Quote

Post by Anonymous » 05 Jan 2026, 16:12

Ich verwende derzeit DDPG, um die Kosten zu minimieren. Ich habe viele logisch sinnvolle, aber komplexere Belohnungsdesigns ausprobiert, aber keines davon hat zu guten Trainingsergebnissen geführt. Deshalb habe ich beschlossen, mit der grundlegendsten Belohnungsformulierung, reward = -total_cost, zu beginnen und die Trainingstrends zu beobachten.
Während des Trainings bin ich jedoch auf ein ernstes Problem gestoßen. Wenn die Belohnung scheinbar konvergiert, stabilisiert sich ihr Wert tatsächlich auf einem niedrigeren Niveau, während die entsprechenden Kosten mit fortschreitendem Training weiter steigen. Dieses Verhalten steht eindeutig im Widerspruch zum Ziel und weist auf ein kritisches Problem hin. (Das Modell wurde für bis zu 5.000 Episoden trainiert.)
Zu diesem Zeitpunkt habe ich Folgendes überprüft:

Die Umgebungslogik ist korrekt
Das Vorzeichen der Belohnung (positiv/negativ) ist nicht verwechselt
Der Erkundungslärm wurde bereits reduziert

Daher möchte ich fragen:

Was sind die häufigsten Ursachen für diese Art von Verhalten?
Was sollten die nächsten Schritte sein, um das Training zu debuggen oder zu verbessern?
Gibt es in meinem Ansatz ein grundlegendes Missverständnis, das ich tun sollte? Überdenken?

1767625948

Anonymous

Ich verwende derzeit DDPG, um die Kosten zu minimieren. Ich habe viele logisch sinnvolle, aber komplexere Belohnungsdesigns ausprobiert, aber keines davon hat zu guten Trainingsergebnissen geführt. Deshalb habe ich beschlossen, mit der grundlegendsten Belohnungsformulierung, reward = -total_cost, zu beginnen und die Trainingstrends zu beobachten.
Während des Trainings bin ich jedoch auf ein ernstes [url=viewtopic.php?t=26065]Problem[/url] gestoßen. Wenn die Belohnung scheinbar konvergiert, stabilisiert sich ihr Wert tatsächlich auf einem niedrigeren Niveau, während die entsprechenden Kosten mit fortschreitendem Training weiter steigen. Dieses Verhalten steht eindeutig im Widerspruch zum Ziel und weist auf ein kritisches [url=viewtopic.php?t=26065]Problem[/url] hin. (Das Modell wurde für bis zu 5.000 Episoden trainiert.)
Zu diesem Zeitpunkt habe ich Folgendes überprüft:
[list]
[*]Die Umgebungslogik ist korrekt

[*]Das Vorzeichen der Belohnung (positiv/negativ) ist nicht verwechselt

[*]Der Erkundungslärm wurde bereits reduziert

[/list]
Daher möchte ich fragen:
[list]
[*]Was sind die häufigsten Ursachen für diese Art von Verhalten?

[*]Was sollten die nächsten Schritte sein, um das Training zu debuggen oder zu verbessern?

[*]Gibt es in meinem Ansatz ein grundlegendes Missverständnis, das ich tun sollte? Überdenken?

[/list]

Post Reply Previous topic Next topic

1 post • Page 1 of 1

Quick Reply

Subject:

Username:

Change Text Case:

Smilies

View more smilies

Similar Topics

Replies

Views

Last post

Kann Deep Learning für den allgemeinen Pfadfindungsfind verwendet werden?

Last post by Anonymous « 11 Feb 2025, 15:01
Posted in Python

by Anonymous » 11 Feb 2025, 15:01 » in Python

Vor ein paar Wochen wurde ich in das Problem der reisenden Verkäuferin (TSP) eingeführt:
Ich habe gelesen, wie dieses Problem für viele reale Weltszenarien wie das Bohren von Löchern in PCBs, in...

0 Replies

66 Views

Last post by Anonymous
11 Feb 2025, 15:01
Python: Deep Q Learning Agent scheint nicht zu lernen

Last post by Anonymous « 12 Feb 2025, 22:48
Posted in Python

by Anonymous » 12 Feb 2025, 22:48 » in Python

Ich benutze Gymnasium und Fackel . Ich habe zunächst eine benutzerdefinierte Umgebung erstellt, indem ich dem offiziellen Leitfaden des Gymnasiums folgt: Sie zeigt, wie Sie ein NXN -Box erstellen, in...

0 Replies

28 Views

Last post by Anonymous
12 Feb 2025, 22:48
Warum divergiert das DDPG-Training im Laufe der Zeit bei der Optimierung für minimale Kosten? [geschlossen]

Last post by Anonymous « 06 Jan 2026, 04:34
Posted in Python

by Anonymous » 06 Jan 2026, 04:34 » in Python

Was sind die häufigsten Gründe dafür, dass die Trainingsleistung mit der Zeit nachlässt – zum Beispiel, wenn die Optimierung auf minimale Kosten ausgerichtet ist, die Kosten aber weiter steigen und...

0 Replies

0 Views

Last post by Anonymous
06 Jan 2026, 04:34
Warum erhöht meine KI mit Verstärkungslernen ihre Belohnung nicht mit der Zeit?

Last post by Guest « 17 Jan 2025, 06:20
Posted in Python

by Guest » 17 Jan 2025, 06:20 » in Python

Ich arbeite an der Entwicklung einer Reinforcement Learning AI, um das Spiel Master Mind zu spielen. Ich habe einem Tutorial ( L8ypSXwyBds für das Spiel Snake gefolgt, habe es aber so geändert, dass...

0 Replies

23 Views

Last post by Guest
17 Jan 2025, 06:20
Reinforcement Learning Flappy Bird-Agent schlägt fehl [geschlossen]

Last post by Guest « 05 Jan 2025, 14:13
Posted in Python

by Guest » 05 Jan 2025, 14:13 » in Python

Ich habe versucht, mit DQN einen Reinforcement-Learning-Agenten für Flappy Bird zu erstellen, aber der Agent lernte überhaupt nicht. Es kollidierte immer wieder mit den Rohren und dem Boden und ich...

0 Replies

49 Views

Last post by Guest
05 Jan 2025, 14:13

Return to “Python”