freeCodeCamp/curriculum/challenges/japanese/11-machine-learning-with-python/tensorflow/reinforcement-learning-with-q-learning-part-2.md

---
id: 5e8f2f13c4cdbe86b5c72da4
title: 'Q学習による強化学習: パート 2'
challengeType: 11
videoId: DX7hJuaUZ7o
bilibiliIds:
  aid: 420570359
  bvid: BV1G341127zr
  cid: 409139190
dashedName: reinforcement-learning-with-q-learning-part-2
---

# --question--

## --text--

エージェントが、ランダムなアクションを実行するか、学習したアクションを使用するかで良好なバランスを取れていない場合、何が起こる可能性がありますか？

## --answers--

エージェントは常に、現在の状態やアクションに対する報酬を最小限に抑えようと試み、極小値につながる。

---

エージェントは常に、現在の状態やアクションに対する報酬を最大化しようと試み、極大値につながる。

## --video-solution--

2
chore(i18n,learn): processed translations (#44851) 2022-01-21 01:00:18 +05:30			`---`
			`id: 5e8f2f13c4cdbe86b5c72da4`
			`title: 'Q学習による強化学習: パート 2'`
			`challengeType: 11`
			`videoId: DX7hJuaUZ7o`
			`bilibiliIds:`
			`aid: 420570359`
			`bvid: BV1G341127zr`
			`cid: 409139190`
			`dashedName: reinforcement-learning-with-q-learning-part-2`
			`---`

			`# --question--`

			`## --text--`

			`エージェントが、ランダムなアクションを実行するか、学習したアクションを使用するかで良好なバランスを取れていない場合、何が起こる可能性がありますか？`

			`## --answers--`

			`エージェントは常に、現在の状態やアクションに対する報酬を最小限に抑えようと試み、極小値につながる。`

			`---`

			`エージェントは常に、現在の状態やアクションに対する報酬を最大化しようと試み、極大値につながる。`

			`## --video-solution--`

			`2`