DQN -Aktionsauswahl - Sollte ich np.argmax (Optionen [0] [ - 1]) oder NP.Argmax (Optionen [0]) verwenden?Python

Python-Programme
Anonymous
 DQN -Aktionsauswahl - Sollte ich np.argmax (Optionen [0] [ - 1]) oder NP.Argmax (Optionen [0]) verwenden?

Post by Anonymous »

Ich arbeite an der Implementierung eines Deep Q-Network (DQN) für einen Handelsbot mit Keras. Ich habe ein Modell, das Q-Werte für jede Aktion (sitzen, kaufen, verkaufen) voraussagt, und ich verwende np.argmax (), um die Aktion mit dem höchsten vorhergesagten q-Wert auszuwählen.

Code: Select all

action = np.argmax(options[0][-1])

Ich bin jedoch verwirrt, ob dies die richtige Möglichkeit ist, die beste Aktion auszuwählen, oder ob ich stattdessen verwenden sollte:

Code: Select all

action = np.argmax(options[0])

Die vollständige Act () -Methode sieht so aus:

Code: Select all

def act(self, state, inventory, is_eval=False):
if not is_eval and random.random()  self.epsilon_min:
self.epsilon *= self.epsilon_decay
< /code>
sollte ich verwenden: < /p>
action = np.argmax(options[0][-1])

oder

Code: Select all

action = np.argmax(options[0])

, um die beste Aktion basierend auf den q-Werten, die vom Modell ausgegeben wurden>

Quick Reply

Change Text Case: 
   
  • Similar Topics
    Replies
    Views
    Last post