23 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
		
		
			
		
	
	
			23 lines
		
	
	
		
			2.5 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| 
								 | 
							
								---
							 | 
						|||
| 
								 | 
							
								title: Reinforcement Learning
							 | 
						|||
| 
								 | 
							
								localeTitle: Укрепление обучения
							 | 
						|||
| 
								 | 
							
								---
							 | 
						|||
| 
								 | 
							
								#### Предлагаемое чтение:
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								*   http://incompleteideas.net/sutton/book/the-book-2nd.html
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								#### Укрепление обучения
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								Укрепление обучения относится к области машинного обучения, которая применяется к агентам, которые вы усиливаете, предоставляя им вознаграждение и наказание. Это дает хорошее постепенное обучение и может упростить изучение агента в задачах, где вы не можете определить правильное значение ошибки.
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								Пример: Боту задают задачу играть в Space Invaders, он пытается научиться играть в нее, взаимодействуя с игрой и взамен получая вознаграждение за очки, которые он забил в конце игры. Чем больше награда, тем больше шансов сделать подобный игровой процесс. Таким образом, он учится играть в игру и выполнять наилучшим образом.
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								В индустрии робот использует глубокое обучение усилению, чтобы выбрать устройство из одной коробки и положить его в контейнер. Успешно ли это или не удается, он запоминает объект и получает знания и тренирует себя для выполнения этой работы с большой скоростью и точностью. Обучение само по себе является своего рода усилением обучения, если обучение находится в позитивном измерении.
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								## Список общих алгоритмов
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								Q-Learning Временная разница (TD) Deep Adversarial Networks
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								## Случаи применения:
							 | 
						|||
| 
								 | 
							
								
							 | 
						|||
| 
								 | 
							
								Некоторыми применениями алгоритмов обучения усилению являются компьютерные настольные игры (Chess, Go), роботизированные руки и самозанятые автомобили.
							 |