Code: Select all
action = np.argmax(options[0][-1])Ich bin jedoch verwirrt, ob dies die richtige Möglichkeit ist, die beste Aktion auszuwählen, oder ob ich stattdessen verwenden sollte:
Code: Select all
action = np.argmax(options[0])Die vollständige Act () -Methode sieht so aus:
Code: Select all
def act(self, state, inventory, is_eval=False):
if not is_eval and random.random() self.epsilon_min:
self.epsilon *= self.epsilon_decay
< /code>
sollte ich verwenden: < /p>
action = np.argmax(options[0][-1])oder
Code: Select all
action = np.argmax(options[0]), um die beste Aktion basierend auf den q-Werten, die vom Modell ausgegeben wurden>
Mobile version