Gymnasium/gym/wrappers/record_episode_statistics.py

import time
from collections import deque
import numpy as np
import gym


class RecordEpisodeStatistics(gym.Wrapper):
    def __init__(self, env, deque_size=100):
        super(RecordEpisodeStatistics, self).__init__(env)
        self.env_is_vec = isinstance(env, gym.vector.VectorEnv)
        self.num_envs = getattr(env, "num_envs", 1)
        self.t0 = (
            time.time()
        )  # TODO: use perf_counter when gym removes Python 2 support
        self.episode_count = 0
        self.episode_returns = None
        self.episode_lengths = None
        self.return_queue = deque(maxlen=deque_size)
        self.length_queue = deque(maxlen=deque_size)

    def reset(self, **kwargs):
        observations = super(RecordEpisodeStatistics, self).reset(**kwargs)
        self.episode_returns = np.zeros(self.num_envs, dtype=np.float32)
        self.episode_lengths = np.zeros(self.num_envs, dtype=np.int32)
        return observations

    def step(self, action):
        observations, rewards, dones, infos = super(RecordEpisodeStatistics, self).step(
            action
        )
        self.episode_returns += rewards
        self.episode_lengths += 1
        if not self.env_is_vec:
            infos = [infos]
            dones = [dones]
        for i in range(len(dones)):
            if dones[i]:
                infos[i] = infos[i].copy()
                episode_return = self.episode_returns[i]
                episode_length = self.episode_lengths[i]
                episode_info = {
                    "r": episode_return,
                    "l": episode_length,
                    "t": round(time.time() - self.t0, 6),
                }
                infos[i]["episode"] = episode_info
                self.return_queue.append(episode_return)
                self.length_queue.append(episode_length)
                self.episode_count += 1
                self.episode_returns[i] = 0
                self.episode_lengths[i] = 0
        return (
            observations,
            rewards,
            dones if self.env_is_vec else dones[0],
            infos if self.env_is_vec else infos[0],
        )
[Wrapper]: RecordEpisodeStatistics (#1628) * Create record_episode_statistics.py * Create test_record_episode_statistics.py * Update __init__.py * Update record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py 2019-11-01 22:27:39 +01:00			`import time`
			`from collections import deque`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`import numpy as np`
[Wrapper]: RecordEpisodeStatistics (#1628) * Create record_episode_statistics.py * Create test_record_episode_statistics.py * Update __init__.py * Update record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py 2019-11-01 22:27:39 +01:00			`import gym`


			`class RecordEpisodeStatistics(gym.Wrapper):`
			`def __init__(self, env, deque_size=100):`
			`super(RecordEpisodeStatistics, self).__init__(env)`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`self.env_is_vec = isinstance(env, gym.vector.VectorEnv)`
			`self.num_envs = getattr(env, "num_envs", 1)`
redo black (#2272) 2021-07-29 15:39:42 -04:00			`self.t0 = (`
			`time.time()`
			`) # TODO: use perf_counter when gym removes Python 2 support`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`self.episode_count = 0`
			`self.episode_returns = None`
			`self.episode_lengths = None`
[Wrapper]: RecordEpisodeStatistics (#1628) * Create record_episode_statistics.py * Create test_record_episode_statistics.py * Update __init__.py * Update record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py 2019-11-01 22:27:39 +01:00			`self.return_queue = deque(maxlen=deque_size)`
			`self.length_queue = deque(maxlen=deque_size)`

			`def reset(self, **kwargs):`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`observations = super(RecordEpisodeStatistics, self).reset(**kwargs)`
			`self.episode_returns = np.zeros(self.num_envs, dtype=np.float32)`
			`self.episode_lengths = np.zeros(self.num_envs, dtype=np.int32)`
			`return observations`
[Wrapper]: RecordEpisodeStatistics (#1628) * Create record_episode_statistics.py * Create test_record_episode_statistics.py * Update __init__.py * Update record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py * Update record_episode_statistics.py * Update test_record_episode_statistics.py 2019-11-01 22:27:39 +01:00
			`def step(self, action):`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`observations, rewards, dones, infos = super(RecordEpisodeStatistics, self).step(`
redo black (#2272) 2021-07-29 15:39:42 -04:00			`action`
			`)`
Make RecordEpisodeStatistics work with VectorEnv (#2296) * Make RecordEpisodeStatistics work with VectorEnv * fix test cases * fix lint * add test cases * fix linting * fix tests * fix test cases... * Update gym/wrappers/record_episode_statistics.py Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> * fix test cases * fix test cases again Co-authored-by: Tristan Deleu <tristandeleu@users.noreply.github.com> 2021-08-05 17:06:49 -04:00			`self.episode_returns += rewards`
			`self.episode_lengths += 1`
			`if not self.env_is_vec:`
			`infos = [infos]`
			`dones = [dones]`
			`for i in range(len(dones)):`
			`if dones[i]:`
			`infos[i] = infos[i].copy()`
			`episode_return = self.episode_returns[i]`
			`episode_length = self.episode_lengths[i]`
			`episode_info = {`
			`"r": episode_return,`
			`"l": episode_length,`
			`"t": round(time.time() - self.t0, 6),`
			`}`
			`infos[i]["episode"] = episode_info`
			`self.return_queue.append(episode_return)`
			`self.length_queue.append(episode_length)`
			`self.episode_count += 1`
			`self.episode_returns[i] = 0`
			`self.episode_lengths[i] = 0`
			`return (`
			`observations,`
			`rewards,`
			`dones if self.env_is_vec else dones[0],`
			`infos if self.env_is_vec else infos[0],`
			`)`