2021-06-15 00:49:18 -07:00
|
|
|
---
|
|
|
|
id: 5e8f2f13c4cdbe86b5c72da4
|
2021-07-20 21:35:24 +05:30
|
|
|
title: 'Apprendimento per rinforzo con Q-Learning: Parte 2'
|
2021-06-15 00:49:18 -07:00
|
|
|
challengeType: 11
|
|
|
|
videoId: DX7hJuaUZ7o
|
2021-10-03 12:24:27 -07:00
|
|
|
bilibiliIds:
|
|
|
|
aid: 420570359
|
|
|
|
bvid: BV1G341127zr
|
|
|
|
cid: 409139190
|
2021-06-15 00:49:18 -07:00
|
|
|
dashedName: reinforcement-learning-with-q-learning-part-2
|
|
|
|
---
|
|
|
|
|
|
|
|
# --question--
|
|
|
|
|
|
|
|
## --text--
|
|
|
|
|
2021-07-20 21:35:24 +05:30
|
|
|
Cosa può accadere se l'agente non ha un buon equilibrio tra l'intraprendere azioni casuali e l'utilizzare azioni apprese?
|
2021-06-15 00:49:18 -07:00
|
|
|
|
|
|
|
## --answers--
|
|
|
|
|
2021-07-20 21:35:24 +05:30
|
|
|
L'agente cercherà sempre di minimizzare la sua ricompensa per lo stato o l'azione corrente, portando a minimi locali.
|
2021-06-15 00:49:18 -07:00
|
|
|
|
|
|
|
---
|
|
|
|
|
2021-07-20 21:35:24 +05:30
|
|
|
L'agente cercherà sempre di massimizzare la sua ricompensa per lo stato o l'azione corrente, portando a massimi locali.
|
2021-06-15 00:49:18 -07:00
|
|
|
|
|
|
|
## --video-solution--
|
|
|
|
|
|
|
|
2
|
|
|
|
|