23 lines
		
	
	
		
			1.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
		
		
			
		
	
	
			23 lines
		
	
	
		
			1.2 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
|   | --- | |||
|  | title: Reinforcement Learning | |||
|  | localeTitle: 强化学习 | |||
|  | --- | |||
|  | #### 推荐阅读:
 | |||
|  | 
 | |||
|  | *   http://incompleteideas.net/sutton/book/the-book-2nd.html | |||
|  | 
 | |||
|  | #### 强化学习
 | |||
|  | 
 | |||
|  | 强化学习是指机器学习领域,适用于通过给予奖励和惩罚而强化的代理人。它提供了一个很好的渐进式学习,可以简化在无法确定正确错误值的任务中学习代理的过程。 | |||
|  | 
 | |||
|  | 例: 机器人被赋予了玩太空入侵者的任务,它试图学习通过与游戏交互来玩它,并作为回报获得它在游戏结束时得分的奖励。奖励越大,进行类似游戏的机会就越大。通过这种方式,它可以学习如何玩游戏并以最佳方式进行游戏。 | |||
|  | 
 | |||
|  | 在工业中,机器人使用深度强化学习从一个盒子中取出一个装置并将其放入容器中。无论是成功还是失败,它都会记住对象并获得知识,并培养自己以极快的速度和精确地完成这项工作。学习本身就是一种强化学习,前提是学习是积极的。 | |||
|  | 
 | |||
|  | ## 常用算法列表
 | |||
|  | 
 | |||
|  | Q学习 时间差异(TD) 深层对抗网络 | |||
|  | 
 | |||
|  | ## 用例:
 | |||
|  | 
 | |||
|  | 强化学习算法的一些应用是计算机玩棋盘游戏(Chess,Go),机器人手和自动驾驶汽车。 |