Consistent initial type (float) for episode_rewards

2017-05-30 11:49:25 +08:00
parent fc2bbed4da
commit 86054f7a98
1 changed files with 1 additions and 1 deletions
--- a/baselines/deepq/simple.py
+++ b/baselines/deepq/simple.py
@@ -222,7 +222,7 @@ def learn(env,
            episode_rewards[-1] += rew
            if done:
                obs = env.reset()
-                episode_rewards.append(0)
+                episode_rewards.append(0.0)

            if t > learning_starts and t % train_freq == 0:
                # Minimize the error in Bellman's equation on a batch sampled from replay buffer.