--- id: 5e8f2f13c4cdbe86b5c72da4 title: 'Q 学習による強化学習: パート 2' challengeType: 11 videoId: DX7hJuaUZ7o bilibiliIds: aid: 420570359 bvid: BV1G341127zr cid: 409139190 dashedName: reinforcement-learning-with-q-learning-part-2 --- # --question-- ## --text-- エージェントが、ランダムなアクションを実行するか、学習したアクションを使用するかで良好なバランスを取れていない場合、何が起こる可能性がありますか? ## --answers-- エージェントは常に、現在の状態やアクションに対する報酬を最小限に抑えようと試み、極小値につながる。 --- エージェントは常に、現在の状態やアクションに対する報酬を最大化しようと試み、極大値につながる。 ## --video-solution-- 2