657 B
657 B
id, title, challengeType, videoId, bilibiliIds, dashedName
id | title | challengeType | videoId | bilibiliIds | dashedName | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
5e8f2f13c4cdbe86b5c72da4 | 使用 Q-Learning 进行强化学习:第 2 部分 | 11 | DX7hJuaUZ7o |
|
reinforcement-learning-with-q-learning-part-2 |
--question--
--text--
如果智能体在采取随机动作和使用学习动作之间没有很好的平衡,会发生什么?
--answers--
智能体将始终尝试将其对当前状态/动作的奖励最小化,从而导致局部最小值。
智能体将始终尝试将其对当前状态/动作的奖励最大化,从而导致局部最大值。
--video-solution--
2