657 B
657 B
id, title, challengeType, videoId, bilibiliIds, dashedName
id | title | challengeType | videoId | bilibiliIds | dashedName | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
5e8f2f13c4cdbe86b5c72da4 | 使用 Q-Learning 進行強化學習:第 2 部分 | 11 | DX7hJuaUZ7o |
|
reinforcement-learning-with-q-learning-part-2 |
--question--
--text--
如果智能體在採取隨機動作和使用學習動作之間沒有很好的平衡,會發生什麼?
--answers--
智能體將始終嘗試將其對當前狀態/動作的獎勵最小化,從而導致局部最小值。
智能體將始終嘗試將其對當前狀態/動作的獎勵最大化,從而導致局部最大值。
--video-solution--
2