23 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
		
		
			
		
	
	
			23 lines
		
	
	
		
			1.4 KiB
		
	
	
	
		
			Markdown
		
	
	
	
	
	
| 
								 | 
							
								---
							 | 
						||
| 
								 | 
							
								title: Reinforcement Learning
							 | 
						||
| 
								 | 
							
								localeTitle: Aprendizagem por Reforço
							 | 
						||
| 
								 | 
							
								---
							 | 
						||
| 
								 | 
							
								#### Leitura sugerida:
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								*   http://incompleteideas.net/sutton/book/the-book-2nd.html
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								#### Aprendizagem por Reforço
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								Aprendizado por Reforço refere-se a um campo de Aprendizado de Máquina que se aplica a agentes que você reforça, dando-lhes recompensa e punição. Ele fornece uma boa aprendizagem gradual e pode simplificar o aprendizado do agente em tarefas em que você não pode determinar um valor de erro adequado.
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								Exemplo: Um bot recebe uma tarefa para jogar Space Invaders, ele tenta aprender a jogá-lo interagindo com o jogo e em troca recebendo uma recompensa pelos pontos que ele marcou no final do jogo. Maior a recompensa, maiores são suas chances de fazer o mesmo jogo. Dessa forma, aprende a jogar e a jogar da melhor maneira possível.
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								Nas indústrias, o robô usa o aprendizado de reforço profundo para escolher um dispositivo de uma caixa e colocá-lo em um contêiner. Se sucede ou falha, memoriza o objeto e ganha conhecimento e treina-se para fazer este trabalho com grande rapidez e precisão. Aprender sozinho é um tipo de aprendizagem de reforço, desde que o aprendizado esteja em dimensão positiva.
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								## Lista de Algoritmos Comuns
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								Q-Learning Diferença Temporal (TD) Redes Adversariais Profundas
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								## Casos de uso:
							 | 
						||
| 
								 | 
							
								
							 | 
						||
| 
								 | 
							
								Algumas aplicações dos algoritmos de aprendizado por reforço são jogos de tabuleiro de computador (Chess, Go), mãos robóticas e carros autônomos.
							 |