Warum divergiert das DDPG-Training im Laufe der Zeit bei der Optimierung für minimale Kosten? [geschlossen] ⇐ Python
-
Anonymous
Warum divergiert das DDPG-Training im Laufe der Zeit bei der Optimierung für minimale Kosten? [geschlossen]
Was sind die häufigsten Gründe dafür, dass die Trainingsleistung mit der Zeit nachlässt – zum Beispiel, wenn die Optimierung auf minimale Kosten ausgerichtet ist, die Kosten aber weiter steigen und die Belohnung während des Trainings symmetrisch abnimmt? Danke
-
- Similar Topics
- Replies
- Views
- Last post
Mobile version