Während des Trainings bin ich jedoch auf ein ernstes Problem gestoßen. Wenn die Belohnung scheinbar konvergiert, stabilisiert sich ihr Wert tatsächlich auf einem niedrigeren Niveau, während die entsprechenden Kosten mit fortschreitendem Training weiter steigen. Dieses Verhalten steht eindeutig im Widerspruch zum Ziel und weist auf ein kritisches Problem hin. (Das Modell wurde für bis zu 5.000 Episoden trainiert.)
Zu diesem Zeitpunkt habe ich Folgendes überprüft:
- Die Umgebungslogik ist korrekt
- Das Vorzeichen der Belohnung (positiv/negativ) ist nicht verwechselt
- Der Erkundungslärm wurde bereits reduziert
- Was sind die häufigsten Ursachen für diese Art von Verhalten?
- Was sollten die nächsten Schritte sein, um das Training zu debuggen oder zu verbessern?
- Gibt es in meinem Ansatz ein grundlegendes Missverständnis, das ich tun sollte? Überdenken?
Mobile version