651 B
651 B
id, title, challengeType, videoId, bilibiliIds, dashedName
id | title | challengeType | videoId | bilibiliIds | dashedName | ||||||
---|---|---|---|---|---|---|---|---|---|---|---|
5e8f2f13c4cdbe86b5c72da5 | Q 学習による強化学習: 例 | 11 | RBBSNta234s |
|
reinforcement-learning-with-q-learning-example |
--question--
--text--
次の空欄を埋めて Q 学習の式を完成させてください。
Q[__A__, __B__] = Q[__A__, __B__] + LEARNING_RATE * (reward + GAMMA * np.max(Q[__C__, :]) - Q[__A__, __B__])
--answers--
A: state
B: action
C: next_state
A: state
B: action
C: prev_state
A: state
B: reaction
C: next_state
--video-solution--
1