Code: Select all
action = np.argmax(options[0][-1])
Ich bin jedoch verwirrt, ob dies die richtige Möglichkeit ist, die beste Aktion auszuwählen, oder ob ich stattdessen verwenden sollte:
Code: Select all
action = np.argmax(options[0])
Die vollständige Act () -Methode sieht so aus:
Code: Select all
def act(self, state, inventory, is_eval=False):
if not is_eval and random.random() self.epsilon_min:
self.epsilon *= self.epsilon_decay
< /code>
sollte ich verwenden: < /p>
action = np.argmax(options[0][-1])
oder
Code: Select all
action = np.argmax(options[0])
, um die beste Aktion basierend auf den q-Werten, die vom Modell ausgegeben wurden>