Gymnasium/gym/envs/mujoco/swimmer_v3.py

__credits__ = ["Rushiv Arora"]

import numpy as np

from gym import utils
from gym.envs.mujoco import MuJocoPyEnv
from gym.spaces import Box

DEFAULT_CAMERA_CONFIG = {}


class SwimmerEnv(MuJocoPyEnv, utils.EzPickle):
    metadata = {
        "render_modes": [
            "human",
            "rgb_array",
            "depth_array",
            "single_rgb_array",
            "single_depth_array",
        ],
        "render_fps": 25,
    }

    def __init__(
        self,
        xml_file="swimmer.xml",
        forward_reward_weight=1.0,
        ctrl_cost_weight=1e-4,
        reset_noise_scale=0.1,
        exclude_current_positions_from_observation=True,
        **kwargs
    ):
        utils.EzPickle.__init__(**locals())

        self._forward_reward_weight = forward_reward_weight
        self._ctrl_cost_weight = ctrl_cost_weight

        self._reset_noise_scale = reset_noise_scale

        self._exclude_current_positions_from_observation = (
            exclude_current_positions_from_observation
        )

        if exclude_current_positions_from_observation:
            observation_space = Box(
                low=-np.inf, high=np.inf, shape=(8,), dtype=np.float64
            )
        else:
            observation_space = Box(
                low=-np.inf, high=np.inf, shape=(10,), dtype=np.float64
            )

        MuJocoPyEnv.__init__(
            self, xml_file, 4, observation_space=observation_space, **kwargs
        )

    def control_cost(self, action):
        control_cost = self._ctrl_cost_weight * np.sum(np.square(action))
        return control_cost

    def step(self, action):
        xy_position_before = self.sim.data.qpos[0:2].copy()
        self.do_simulation(action, self.frame_skip)
        xy_position_after = self.sim.data.qpos[0:2].copy()

        self.renderer.render_step()

        xy_velocity = (xy_position_after - xy_position_before) / self.dt
        x_velocity, y_velocity = xy_velocity

        forward_reward = self._forward_reward_weight * x_velocity
        ctrl_cost = self.control_cost(action)

        observation = self._get_obs()
        reward = forward_reward - ctrl_cost
        done = False
        info = {
            "reward_fwd": forward_reward,
            "reward_ctrl": -ctrl_cost,
            "x_position": xy_position_after[0],
            "y_position": xy_position_after[1],
            "distance_from_origin": np.linalg.norm(xy_position_after, ord=2),
            "x_velocity": x_velocity,
            "y_velocity": y_velocity,
            "forward_reward": forward_reward,
        }

        return observation, reward, done, info

    def _get_obs(self):
        position = self.sim.data.qpos.flat.copy()
        velocity = self.sim.data.qvel.flat.copy()

        if self._exclude_current_positions_from_observation:
            position = position[2:]

        observation = np.concatenate([position, velocity]).ravel()
        return observation

    def reset_model(self):
        noise_low = -self._reset_noise_scale
        noise_high = self._reset_noise_scale

        qpos = self.init_qpos + self.np_random.uniform(
            low=noise_low, high=noise_high, size=self.model.nq
        )
        qvel = self.init_qvel + self.np_random.uniform(
            low=noise_low, high=noise_high, size=self.model.nv
        )

        self.set_state(qpos, qvel)

        observation = self._get_obs()
        return observation

    def viewer_setup(self):
        assert self.viewer is not None
        for key, value in DEFAULT_CAMERA_CONFIG.items():
            if isinstance(value, np.ndarray):
                getattr(self.viewer.cam, key)[:] = value
            else:
                setattr(self.viewer.cam, key, value)
docs+credits (#2574) * docs+credits * docs: refactor box2d + comment version history * fix mujoco line lengths * fix more env line lengths * black * typos Co-authored-by: Andrea PIERRÉ <andrea_pierre@brown.edu> 2022-01-26 16:02:42 -05:00			`__credits__ = ["Rushiv Arora"]`

Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00			`import numpy as np`

Improve `pre-commit` workflow (#2602) * feat: add `isort` to `pre-commit` * ci: skip `__init__.py` file for `isort` * ci: make `isort` mandatory in lint pipeline * docs: add a section on Git hooks * ci: check isort diff * fix: isort from master branch * docs: add pre-commit badge * ci: update black + bandit versions * feat: add PR template * refactor: PR template * ci: remove bandit * docs: add Black badge * ci: try to remove all `\|\| true` statements * ci: remove lint_python job - Remove `lint_python` CI job - Move `pyupgrade` job to `pre-commit` workflow * fix: avoid messing with typing * docs: add a note on running `pre-cpmmit` manually * ci: apply `pre-commit` to the whole codebase 2022-03-31 12:50:38 -07:00			`from gym import utils`
split base mujoco env class (#2946) 2022-07-06 11:18:03 -04:00			`from gym.envs.mujoco import MuJocoPyEnv`
Initialize observation spaces and pytest (#2929) * Remove step initialization for mujoco obs spaces * remove step initialization for mujoco obs space * pre-commit pytest obs space mujoco 2022-06-30 10:59:59 -04:00			`from gym.spaces import Box`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00
			`DEFAULT_CAMERA_CONFIG = {}`


split base mujoco env class (#2946) 2022-07-06 11:18:03 -04:00			`class SwimmerEnv(MuJocoPyEnv, utils.EzPickle):`
Mujoco metadata (#2904) 2022-06-19 21:50:31 +01:00			`metadata = {`
			`"render_modes": [`
			`"human",`
			`"rgb_array",`
			`"depth_array",`
			`"single_rgb_array",`
			`"single_depth_array",`
			`],`
			`"render_fps": 25,`
			`}`

Blacken the codebase (#2265) 2021-07-29 02:26:34 +02:00			`def __init__(`
			`self,`
			`xml_file="swimmer.xml",`
			`forward_reward_weight=1.0,`
			`ctrl_cost_weight=1e-4,`
			`reset_noise_scale=0.1,`
			`exclude_current_positions_from_observation=True,`
Fix: add mujoco render arguments to init (#2891) * fix: add render_mode getter to Wrappers * fix: add render args to mujoco init * reformat * add type hints 2022-06-16 18:29:50 +02:00			`**kwargs`
Blacken the codebase (#2265) 2021-07-29 02:26:34 +02:00			`):`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00			`utils.EzPickle.__init__(**locals())`

			`self._forward_reward_weight = forward_reward_weight`
			`self._ctrl_cost_weight = ctrl_cost_weight`

			`self._reset_noise_scale = reset_noise_scale`

redo black (#2272) 2021-07-29 15:39:42 -04:00			`self._exclude_current_positions_from_observation = (`
			`exclude_current_positions_from_observation`
			`)`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00
Initialize observation spaces and pytest (#2929) * Remove step initialization for mujoco obs spaces * remove step initialization for mujoco obs space * pre-commit pytest obs space mujoco 2022-06-30 10:59:59 -04:00			`if exclude_current_positions_from_observation:`
			`observation_space = Box(`
			`low=-np.inf, high=np.inf, shape=(8,), dtype=np.float64`
			`)`
			`else:`
			`observation_space = Box(`
			`low=-np.inf, high=np.inf, shape=(10,), dtype=np.float64`
			`)`

split base mujoco env class (#2946) 2022-07-06 11:18:03 -04:00			`MuJocoPyEnv.__init__(`
			`self, xml_file, 4, observation_space=observation_space, **kwargs`
Render API (#2671) * add pygame GUI for frozen_lake.py env * add new line at EOF * pre-commit reformat * improve graphics * new images and dynamic window size * darker tile borders and fix ICC profile * pre-commit hook * adjust elf and stool size * Update frozen_lake.py * reformat * fix #2600 * #2600 * add rgb_array support * reformat * test render api change on FrozenLake * add render support for reset on frozenlake * add clock on pygame render * new render api for blackjack * new render api for cliffwalking * new render api for Env class * update reset method, lunar and Env * fix wrapper * fix reset lunar * new render api for box2d envs * new render api for mujoco envs * fix bug * new render api for classic control envs * fix tests * add render_mode None for CartPole * new render api for test fake envs * pre-commit hook * fix FrozenLake * fix FrozenLake * more render_mode to super - frozenlake * remove kwargs from frozen_lake new * pre-commit hook * add deprecated render method * add backwards compatibility * fix test * add _render * move pygame.init() (avoid pygame dependency on init) * fix pygame dependencies * remove collect_render() maintain multi-behaviours .render() * add type hints * fix renderer * don't call .render() with None * improve docstring * add single_rgb_array to all envs * remove None from metadata["render_modes"] * add type hints to test_env_checkers * fix lint * add comments to renderer * add comments to single_depth_array and single_state_pixels * reformat * add deprecation warnings and env.render_mode declaration * fix lint * reformat * fix tests * add docs * fix car racing determinism * remove warning test envs, customizable modes on renderer * remove commments and add todo for env_checker * fix car racing * replace render mode check with assert * update new mujoco * reformat * reformat * change metaclass definition * fix tests * implement mark suggestions (test, docs, sets) * check_render Co-authored-by: J K Terry <jkterry0@gmail.com> 2022-06-08 00:20:56 +02:00			`)`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00
			`def control_cost(self, action):`
			`control_cost = self._ctrl_cost_weight * np.sum(np.square(action))`
			`return control_cost`

			`def step(self, action):`
			`xy_position_before = self.sim.data.qpos[0:2].copy()`
			`self.do_simulation(action, self.frame_skip)`
			`xy_position_after = self.sim.data.qpos[0:2].copy()`

Render API (#2671) * add pygame GUI for frozen_lake.py env * add new line at EOF * pre-commit reformat * improve graphics * new images and dynamic window size * darker tile borders and fix ICC profile * pre-commit hook * adjust elf and stool size * Update frozen_lake.py * reformat * fix #2600 * #2600 * add rgb_array support * reformat * test render api change on FrozenLake * add render support for reset on frozenlake * add clock on pygame render * new render api for blackjack * new render api for cliffwalking * new render api for Env class * update reset method, lunar and Env * fix wrapper * fix reset lunar * new render api for box2d envs * new render api for mujoco envs * fix bug * new render api for classic control envs * fix tests * add render_mode None for CartPole * new render api for test fake envs * pre-commit hook * fix FrozenLake * fix FrozenLake * more render_mode to super - frozenlake * remove kwargs from frozen_lake new * pre-commit hook * add deprecated render method * add backwards compatibility * fix test * add _render * move pygame.init() (avoid pygame dependency on init) * fix pygame dependencies * remove collect_render() maintain multi-behaviours .render() * add type hints * fix renderer * don't call .render() with None * improve docstring * add single_rgb_array to all envs * remove None from metadata["render_modes"] * add type hints to test_env_checkers * fix lint * add comments to renderer * add comments to single_depth_array and single_state_pixels * reformat * add deprecation warnings and env.render_mode declaration * fix lint * reformat * fix tests * add docs * fix car racing determinism * remove warning test envs, customizable modes on renderer * remove commments and add todo for env_checker * fix car racing * replace render mode check with assert * update new mujoco * reformat * reformat * change metaclass definition * fix tests * implement mark suggestions (test, docs, sets) * check_render Co-authored-by: J K Terry <jkterry0@gmail.com> 2022-06-08 00:20:56 +02:00			`self.renderer.render_step()`

Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00			`xy_velocity = (xy_position_after - xy_position_before) / self.dt`
			`x_velocity, y_velocity = xy_velocity`

			`forward_reward = self._forward_reward_weight * x_velocity`
			`ctrl_cost = self.control_cost(action)`

			`observation = self._get_obs()`
			`reward = forward_reward - ctrl_cost`
			`done = False`
			`info = {`
Blacken the codebase (#2265) 2021-07-29 02:26:34 +02:00			`"reward_fwd": forward_reward,`
			`"reward_ctrl": -ctrl_cost,`
			`"x_position": xy_position_after[0],`
			`"y_position": xy_position_after[1],`
			`"distance_from_origin": np.linalg.norm(xy_position_after, ord=2),`
			`"x_velocity": x_velocity,`
			`"y_velocity": y_velocity,`
			`"forward_reward": forward_reward,`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00			`}`

			`return observation, reward, done, info`

			`def _get_obs(self):`
			`position = self.sim.data.qpos.flat.copy()`
			`velocity = self.sim.data.qvel.flat.copy()`

			`if self._exclude_current_positions_from_observation:`
			`position = position[2:]`

			`observation = np.concatenate([position, velocity]).ravel()`
			`return observation`

			`def reset_model(self):`
			`noise_low = -self._reset_noise_scale`
			`noise_high = self._reset_noise_scale`

redo black (#2272) 2021-07-29 15:39:42 -04:00			`qpos = self.init_qpos + self.np_random.uniform(`
			`low=noise_low, high=noise_high, size=self.model.nq`
			`)`
			`qvel = self.init_qvel + self.np_random.uniform(`
			`low=noise_low, high=noise_high, size=self.model.nv`
			`)`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00
			`self.set_state(qpos, qvel)`

			`observation = self._get_obs()`
			`return observation`

			`def viewer_setup(self):`
Full type hinting (#2942) * Allows a new RNG to be generated with seed=-1 and updated env_checker to fix bug if environment doesn't use np_random in reset * Revert "fixed `gym.vector.make` where the checker was being applied in the opposite case than was intended to (#2871)" This reverts commit 519dfd9117e98e4f52d38064d2b0f79974fb676d. * Remove bad pushed commits * Fixed spelling in core.py * Pins pytest to the last py 3.6 version * Allow Box automatic scalar shape * Add test box and change default from () to (1,) * update Box shape inference with more strict checking * Update the box shape and add check on the custom Box shape * Removed incorrect shape type and assert shape code * Update the Box and associated tests * Remove all folders and files from pyright exclude * Revert issues * Push RedTachyon code review * Add Python Platform * Remove play from pyright check * Fixed CI issues * remove mujoco env type hinting * Fixed pixel observation test * Added some new type hints * Fixed CI errors * Fixed CI errors * Remove play.py from exlucde pyright * Fixed pyright issues 2022-07-04 18:19:25 +01:00			`assert self.viewer is not None`
Refactor mujoco envs to support dynamic arguments (#1304) * Refactor gym envs to support dynamic arguments * Fix viewer setup lookat configuration * Add xml_file argument for mujoco envs * Move refactored mujoco envs to their own _v3.py files * Revert "Add xml_file argument for mujoco envs" This reverts commit 4a3a74c00da73662c10c3256fb7242b85271539c. * Revert "Fix viewer setup lookat configuration" This reverts commit 62b4bcffea9d63bdd1eb6580d4fda9893fa20cdf. * Revert "Refactor gym envs to support dynamic arguments" This reverts commit b2a439f74f8be390c806515f77849e04776f91bb. * Fix v3 SwimmerEnv info * Regiter v3 mujoco environments * Implement v2 to v3 conversion test * Add extra step info the v3 environments * polish the new unit tests a little bit 2019-02-25 15:12:06 -08:00			`for key, value in DEFAULT_CAMERA_CONFIG.items():`
			`if isinstance(value, np.ndarray):`
			`getattr(self.viewer.cam, key)[:] = value`
			`else:`
			`setattr(self.viewer.cam, key, value)`