31 lines
1016 B
Markdown
31 lines
1016 B
Markdown
![]() |
---
|
||
|
id: 5e8f2f13c4cdbe86b5c72da4
|
||
|
title: 'Навчання з підкріпленням за допомогою Q-Learning: Частина 2'
|
||
|
challengeType: 11
|
||
|
videoId: DX7hJuaUZ7o
|
||
|
bilibiliIds:
|
||
|
aid: 420570359
|
||
|
bvid: BV1G341127zr
|
||
|
cid: 409139190
|
||
|
dashedName: reinforcement-learning-with-q-learning-part-2
|
||
|
---
|
||
|
|
||
|
# --question--
|
||
|
|
||
|
## --text--
|
||
|
|
||
|
Що може статися, якщо агент не матиме необхідного балансу між реалізацією випадкових дій та попередньо вивчених дій?
|
||
|
|
||
|
## --answers--
|
||
|
|
||
|
Агент завжди намагатиметься мінімізувати винагороду за поточний стан/дію, призводячи до локального мінімуму.
|
||
|
|
||
|
---
|
||
|
|
||
|
Агент завжди намагатиметься максимізувати винагороду за поточний стан/дію, призводячи до локального максимуму.
|
||
|
|
||
|
## --video-solution--
|
||
|
|
||
|
2
|
||
|
|