DQN -Aktionsauswahl - Sollte ich np.argmax (Optionen [0] [ - 1]) oder NP.Argmax (Optionen [0]) verwenden?
Posted: 07 Apr 2025, 05:46
Ich arbeite an der Implementierung eines Deep Q-Network (DQN) für einen Handelsbot mit Keras. Ich habe ein Modell, das Q-Werte für jede Aktion (sitzen, kaufen, verkaufen) voraussagt, und ich verwende np.argmax (), um die Aktion mit dem höchsten vorhergesagten q-Wert auszuwählen.
Ich bin jedoch verwirrt, ob dies die richtige Möglichkeit ist, die beste Aktion auszuwählen, oder ob ich stattdessen verwenden sollte:
Die vollständige Act () -Methode sieht so aus:
oder
, um die beste Aktion basierend auf den q-Werten, die vom Modell ausgegeben wurden>
Code: Select all
action = np.argmax(options[0][-1])
Ich bin jedoch verwirrt, ob dies die richtige Möglichkeit ist, die beste Aktion auszuwählen, oder ob ich stattdessen verwenden sollte:
Code: Select all
action = np.argmax(options[0])
Die vollständige Act () -Methode sieht so aus:
Code: Select all
def act(self, state, inventory, is_eval=False):
if not is_eval and random.random() self.epsilon_min:
self.epsilon *= self.epsilon_decay
< /code>
sollte ich verwenden: < /p>
action = np.argmax(options[0][-1])
oder
Code: Select all
action = np.argmax(options[0])
, um die beste Aktion basierend auf den q-Werten, die vom Modell ausgegeben wurden>