change random seeding to work with new gym version (#231)

* change random seeding to work with new gym version * move seeding to seed() method * fix mnistenv * actually try some of the tests before pushing * more deterministic fixed seq
2019-02-04 21:10:11 -08:00
parent 82ebd4a153
commit 0dcaafd717
7 changed files with 27 additions and 15 deletions
--- a/baselines/common/tests/envs/fixed_sequence_env.py
+++ b/baselines/common/tests/envs/fixed_sequence_env.py
@@ -7,21 +7,20 @@ class FixedSequenceEnv(Env):
    def __init__(
            self,
            n_actions=10,
            seed=0,
            episode_len=100
    ):
        self.np_random = np.random.RandomState()
-        self.np_random.seed(seed)
+        self.sequence = None
        self.sequence = [self.np_random.randint(0, n_actions-1) for _ in range(episode_len)]
        self.action_space = Discrete(n_actions)
        self.observation_space = Discrete(1)
        self.episode_len = episode_len
        self.time = 0
        self.reset()
    def reset(self):
        if self.sequence is None:
            self.sequence = [self.np_random.randint(0, self.action_space.n-1) for _ in range(self.episode_len)]
        self.time = 0
        return 0
@@ -35,6 +34,9 @@ class FixedSequenceEnv(Env):
        return 0, rew, done, {}
    def seed(self, seed=None):
        self.np_random.seed(seed)
    def _choose_next_state(self):
        self.time += 1
--- a/baselines/common/tests/envs/identity_env.py
+++ b/baselines/common/tests/envs/identity_env.py
@@ -10,6 +10,7 @@ class IdentityEnv(Env):
            episode_len=None
    ):
        self.observation_space = self.action_space
        self.episode_len = episode_len
        self.time = 0
        self.reset()
@@ -17,7 +18,6 @@ class IdentityEnv(Env):
    def reset(self):
        self._choose_next_state()
        self.time = 0
        self.observation_space = self.action_space
        return self.state
@@ -30,6 +30,9 @@ class IdentityEnv(Env):
        return self.state, rew, done, {}
    def seed(self, seed=None):
        self.action_space.seed(seed)
    def _choose_next_state(self):
        self.state = self.action_space.sample()
        self.time += 1
--- a/baselines/common/tests/envs/mnist_env.py
+++ b/baselines/common/tests/envs/mnist_env.py
@@ -9,7 +9,6 @@ from gym.spaces import Discrete, Box
 class MnistEnv(Env):
    def __init__(
            self,
            seed=0,
            episode_len=None,
            no_images=None
    ):
@@ -23,7 +22,6 @@ class MnistEnv(Env):
           self.mnist = input_data.read_data_sets(mnist_path)
        self.np_random = np.random.RandomState()
        self.np_random.seed(seed)
        self.observation_space = Box(low=0.0, high=1.0, shape=(28,28,1))
        self.action_space = Discrete(10)
@@ -50,6 +48,9 @@ class MnistEnv(Env):
        return self.state[0], rew, done, {}
    def seed(self, seed=None):
        self.np_random.seed(seed)
    def train_mode(self):
        self.dataset = self.mnist.train
--- a/baselines/common/tests/test_fixed_sequence.py
+++ b/baselines/common/tests/test_fixed_sequence.py
@@ -33,8 +33,7 @@ def test_fixed_sequence(alg, rnn):
    kwargs = learn_kwargs[alg]
    kwargs.update(common_kwargs)
-    episode_len = 5
+    env_fn = lambda: FixedSequenceEnv(n_actions=10, episode_len=5)
    env_fn = lambda: FixedSequenceEnv(10, episode_len=episode_len)
    learn = lambda e: get_learn_function(alg)(
        env=e,
        network=rnn,
--- a/baselines/common/tests/test_mnist.py
+++ b/baselines/common/tests/test_mnist.py
@@ -41,7 +41,7 @@ def test_mnist(alg):
    learn = get_learn_function(alg)
    learn_fn = lambda e: learn(env=e, **learn_kwargs)
-    env_fn = lambda: MnistEnv(seed=0, episode_len=100)
+    env_fn = lambda: MnistEnv(episode_len=100)
    simple_test(env_fn, learn_fn, 0.6)
--- a/baselines/common/tests/test_serialization.py
+++ b/baselines/common/tests/test_serialization.py
@@ -44,7 +44,12 @@ def test_serialization(learn_fn, network_fn):
            # github issue: https://github.com/openai/baselines/issues/660
            return
-    env = DummyVecEnv([lambda: MnistEnv(10, episode_len=100)])
+    def make_env():
        env = MnistEnv(episode_len=100)
        env.seed(10)
        return env
    env = DummyVecEnv([make_env])
    ob = env.reset().copy()
    learn = get_learn_function(learn_fn)
--- a/baselines/common/tests/util.py
+++ b/baselines/common/tests/util.py
@@ -1,17 +1,19 @@
 import tensorflow as tf
 import numpy as np
 from gym.spaces import np_random
 from baselines.common.vec_env.dummy_vec_env import DummyVecEnv
 N_TRIALS = 10000
 N_EPISODES = 100
 def simple_test(env_fn, learn_fn, min_reward_fraction, n_trials=N_TRIALS):
    def seeded_env_fn():
        env = env_fn()
        env.seed(0)
        return env
    np.random.seed(0)
    np_random.seed(0)
    env = DummyVecEnv([env_fn])
    env = DummyVecEnv([seeded_env_fn])
    with tf.Graph().as_default(), tf.Session(config=tf.ConfigProto(allow_soft_placement=True)).as_default():
        tf.set_random_seed(0)