Belohnung für DDPG Deep Learning [geschlossen]Python

Python-Programme
Anonymous
 Belohnung für DDPG Deep Learning [geschlossen]

Post by Anonymous »

Ich verwende derzeit DDPG, um die Kosten zu minimieren. Ich habe viele logisch sinnvolle, aber komplexere Belohnungsdesigns ausprobiert, aber keines davon hat zu guten Trainingsergebnissen geführt. Deshalb habe ich beschlossen, mit der grundlegendsten Belohnungsformulierung, reward = -total_cost, zu beginnen und die Trainingstrends zu beobachten.
Während des Trainings bin ich jedoch auf ein ernstes Problem gestoßen. Wenn die Belohnung scheinbar konvergiert, stabilisiert sich ihr Wert tatsächlich auf einem niedrigeren Niveau, während die entsprechenden Kosten mit fortschreitendem Training weiter steigen. Dieses Verhalten steht eindeutig im Widerspruch zum Ziel und weist auf ein kritisches Problem hin. (Das Modell wurde für bis zu 5.000 Episoden trainiert.)
Zu diesem Zeitpunkt habe ich Folgendes überprüft:
  • Die Umgebungslogik ist korrekt
  • Das Vorzeichen der Belohnung (positiv/negativ) ist nicht verwechselt
  • Der Erkundungslärm wurde bereits reduziert
Daher möchte ich fragen:
  • Was sind die häufigsten Ursachen für diese Art von Verhalten?
  • Was sollten die nächsten Schritte sein, um das Training zu debuggen oder zu verbessern?
  • Gibt es in meinem Ansatz ein grundlegendes Missverständnis, das ich tun sollte? Überdenken?

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post