baselines/baselines/deepq/experiments/enjoy_pong.py

import gym
from baselines import deepq


def main():
    env = gym.make("PongNoFrameskip-v4")
    env = deepq.wrap_atari_dqn(env)
    model = deepq.learn(
        env,
        "conv_only",
        convs=[(32, 8, 4), (64, 4, 2), (64, 3, 1)],
        hiddens=[256],
        dueling=True,
        total_timesteps=0
    )

    while True:
        obs, done = env.reset(), False
        episode_rew = 0
        while not done:
            env.render()
            obs, rew, done, _ = env.step(model(obs[None])[0])
            episode_rew += rew
        print("Episode reward", episode_rew)


if __name__ == '__main__':
    main()
Initial commit 2017-05-17 14:41:46 -07:00			`import gym`
			`from baselines import deepq`


			`def main():`
update Atari envs to v4 and warn Python 2 users. 2017-05-25 14:40:26 -07:00			`env = gym.make("PongNoFrameskip-v4")`
change atari preprocessing to use faster opencv some logger changes 2017-10-25 09:21:29 -04:00			`env = deepq.wrap_atari_dqn(env)`
baselines issue #564 (#574) * fixes to enjoy_cartpole, enjoy_mountaincar.py * fixed {train,enjoy}_pong, removed enjoy_retro * set number of timesteps to 1e7 in train_pong * flake8 complaints * use synchronous version fo acktr in test_env_after_learn * flake8 2018-09-10 11:50:59 -07:00			`model = deepq.learn(`
			`env,`
			`"conv_only",`
			`convs=[(32, 8, 4), (64, 4, 2), (64, 3, 1)],`
			`hiddens=[256],`
			`dueling=True,`
			`total_timesteps=0`
			`)`
Initial commit 2017-05-17 14:41:46 -07:00
			`while True:`
			`obs, done = env.reset(), False`
			`episode_rew = 0`
			`while not done:`
			`env.render()`
baselines issue #564 (#574) * fixes to enjoy_cartpole, enjoy_mountaincar.py * fixed {train,enjoy}_pong, removed enjoy_retro * set number of timesteps to 1e7 in train_pong * flake8 complaints * use synchronous version fo acktr in test_env_after_learn * flake8 2018-09-10 11:50:59 -07:00			`obs, rew, done, _ = env.step(model(obs[None])[0])`
Initial commit 2017-05-17 14:41:46 -07:00			`episode_rew += rew`
			`print("Episode reward", episode_rew)`


			`if __name__ == '__main__':`
			`main()`