Warum divergiert das DDPG-Training im Laufe der Zeit bei der Optimierung für minimale Kosten? [geschlossen]Python

Python-Programme
Anonymous
 Warum divergiert das DDPG-Training im Laufe der Zeit bei der Optimierung für minimale Kosten? [geschlossen]

Post by Anonymous »

Was sind die häufigsten Gründe dafür, dass die Trainingsleistung mit der Zeit nachlässt – zum Beispiel, wenn die Optimierung auf minimale Kosten ausgerichtet ist, die Kosten aber weiter steigen und die Belohnung während des Trainings symmetrisch abnimmt? Danke

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post