• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
10.11606/T.3.2004.tde-28062005-191041
Documento
Autor
Nome completo
Reinaldo Augusto da Costa Bianchi
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2004
Orientador
Banca examinadora
Sichman, Jaime Simao (Presidente)
Araujo, Aluizio Fausto Ribeiro
Camargo Junior, Joao Batista
Costa, Oswaldo Luiz do Valle
Romero, Roseli Aparecida Francelin
Título em português
Uso de heurísticas para a aceleração do aprendizado por reforço.
Palavras-chave em português
aprendizado computacional
aprendizado por reforço
inteligência artificial
robôs
robótica móvel inteligente
Resumo em português
Este trabalho propõe uma nova classe de algoritmos que permite o uso de heurísticas para aceleração do aprendizado por reforço. Esta classe de algoritmos, denominada "Aprendizado Acelerado por Heurísticas" ("Heuristically Accelerated Learning" - HAL), é formalizada por Processos Markovianos de Decisão, introduzindo uma função heurística H para influenciar o agente na escolha de suas ações, durante o aprendizado. A heurística é usada somente para a escolha da ação a ser tomada, não modificando o funcionamento do algoritmo de aprendizado por reforço e preservando muitas de suas propriedades. As heurísticas utilizadas nos HALs podem ser definidas a partir de conhecimento prévio sobre o domínio ou extraídas, em tempo de execução, de indícios que existem no próprio processo de aprendizagem. No primeiro caso, a heurística é definida a partir de casos previamente aprendidos ou definida ad hoc. No segundo caso são utilizados métodos automáticos de extração da função heurística H chamados "Heurística a partir de X" ("Heuristic from X"). Para validar este trabalho são propostos diversos algoritmos, entre os quais, o "Q-Learning Acelerado por Heurísticas" (Heuristically Accelerated Q-Learning - HAQL), que implementa um HAL estendendo o conhecido algoritmo Q-Learning, e métodos de extração da função heurística que podem ser usados por ele. São apresentados experimentos utilizando os algoritmos acelerados por heurísticas para solucionar problemas em diversos domínios - sendo o mais importante o de navegação robótica - e as heurísticas (pré-definidas ou extraídas) que foram usadas. Os resultados experimentais permitem concluir que mesmo uma heurística muito simples resulta em um aumento significativo do desempenho do algoritmo de aprendizado de reforço utilizado.
Título em inglês
Heuristically acelerated reinforcement learning.
Palavras-chave em inglês
artificial intelligence
intelligent mobile robots
machine learning
reinforcement learning
robots
Resumo em inglês
This work presents a new class of algorithms that allows the use of heuristics to speed up Reinforcement Learning (RL) algorithms. This class of algorithms, called "Heuristically Accelerated Learning" (HAL) is modeled using a convenient mathematical formalism known as Markov Decision Processes. To model the HALs a heuristic function that influences the choice of the actions by the agent during its learning is defined. As the heuristic is used only when choosing the action to be taken, the RL algorithm operation is not modified and many proprieties of the RL algorithms are preserved. The heuristic used in the HALs can be defined from previous knowledge about the domain or be extracted from clues that exist in the learning process itself. In the first case, the heuristic is defined from previously learned cases or is defined ad hoc. In the second case, automatic methods for the extraction of the heuristic function H called "Heuristic from X" are used. A new algorithm called Heuristically Accelerated Q-Learning is proposed, among others, to validate this work. It implements a HAL by extending the well-known RL algorithm Q-Learning. Experiments that use the heuristically accelerated algorithms to solve problems in a number of domains - including robotic navigation - are presented. The experimental results allow to conclude that even a very simple heuristic results in a significant performance increase in the used reinforcement learning algorithm.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
tese-bianchi.pdf (2.08 Mbytes)
Data de Publicação
2005-08-05
 
AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.
  • BIANCHI, REINALDO A. C., et al. Heuristically-Accelerated Multiagent Reinforcement Learning [doi:10.1109/tcyb.2013.2253094]. IEEE Transactions on Cybernetics [online], 2013, vol. PP, p. 1-1.
  • BIANCHI, Reinaldo Augusto da Costa, RIBEIRO, Carlos Henrique Costa, and Costa, Anna Helena Reali. Accelerating Autonomous Learning by Using Heuristic Selection of Actions [doi:10.1007/s10732-007-9031-5]. Journal of Heuristics [online], 2008, vol. 14, p. 135-168.
  • BIANCHI, Reinaldo Augusto da Costa, et al. Heuristically Accelerated Q-Learning: a New Approach to Speed Up Reinforcement Learning [doi:10.1007/b100195]. Lecture Notes in Computer Science [online], 2004, vol. 3171, p. 245-254.
  • ODAKURA, Valguima Victoria Viana Aguiar, BIANCHI, Reinaldo Augusto da Costa, and COSTA, ANNA HELENA REALI. General detection model in cooperative multirobot localization [doi:10.1590/S0104-65002009000300004]. Journal of the Brazilian Computer Society [online], 2009, vol. 15, p. 33-46.
  • BIANCHI, Reinaldo Augusto da Costa, and Costa, Anna Helena Reali. Comparing distributed reinforcement learning approaches to learn agent coordination. In 8th Ibero-American Conference on AI (IBERAMIA 2002), Seville, Spain, 2002. Advances in Artificial Intelligence - IBERAMIA 2002 8th Ibero-American Conference on AI.Berlin : Springer, 2002.
  • BIANCHI, Reinaldo Augusto da Costa, Costa, Anna Helena Reali, and RIBEIRO, Carlos Henrique Costa. Heuristic Selection of Actions in Multiagent Reinforcement Learning. In International Joint Conference on Artificial Intelligence, Hyderabad, India, 2007. International Joint Conferences on Artificial Intelligence.Menlo Park, California : AAAI Press, 2007. Available from: http://www.ijcai.org/papers07/papers/ijcai07-110.pdf.
  • BIANCHI, Reinaldo Augusto da Costa, e Costa, Anna Helena Reali. Comparing distributed reinforcement learning approaches to learn agent coordination. In I Workshop do Projeto AACROM, São Paulo, 2002. Anais do I Workshop do Projeto AACROM., 2002.
  • BIANCHI, Reinaldo Augusto da Costa, e Costa, Anna Helena Reali. Uso de heurísticas para a aceleração do aprendizado por reforço. In XVIII Concurso de Teses e Dissertações - XXV Congresso da Sociedade Brasileira de Computação, São Leopoldo, 2005. Dispon?vel em: http://www.unisinos.br/congresso/sbc2005/?sessao=ctd.
  • BIANCHI, Reinaldo Augusto da Costa, RIBEIRO, Carlos Henrique Costa, and COSTA, Anna Helena Reali. Heuristically Accelerated Reinforcement Learning: Theoretical and Experimental Results [doi:10.3233/978-1-61499-098-7-169]. In European Conference on Artificial Intelligence (ECAI 2012)), Montpellier, 2012. Frontiers in Artificial Intelligence and Applications.Amsterdam : IOS Press, 2012.
  • BIANCHI, Reinaldo Augusto da Costa, RIBEIRO, Carlos Henrique Costa, e Costa, Anna Helena Reali. Uso de heurísticas baseadas em políticas para aceleração do Aprendizado por Reforço. In II Workshop do Projeto AACROM, São José dos Campos, SP., 2003. Anais do II Workshop do Projeto AACROM., 2003.
  • ODAKURA, Valguima Victoria Viana Aguiar, et al. The use of Negative Detection in Cooperative Localization in a Team of Four-Legged Robots. In IX SBAI - Simpósio Brasileiro de Automação Inteligente, Brasília, 2009. Anais do SBAI 2009. : Sociedade Brasileira de Automática, 2009.
  • CELIBERTO JUNIOR, L. A., et al. Heuristic Reinforcement Learning applied to RoboCup Simulation Agents. In Gerhard Lakemeyer, et al. RoboCup 2006: Robot Soccer World Cup X. Organizador. Heildelberg : Springer, 2008{Volume}. chap. 5001, p. 220-227.http://www.teses.usp.br/teses/disponiveis/3/3141/tde-28062005-191041/
  • Costa, Anna Helena Reali, WALDMANN, J., e BIANCHI, Reinaldo Augusto da Costa. Visão robótica. In Luis Antonio Aguirre. Enciclopédia de Automática [online]. Organizador. São Paulo : Editora Edgard Blücher, 2007{Volume}. cap. 3, p. 410-427.http://www.teses.usp.br/teses/disponiveis/3/3141/tde-28062005-191041/
Todos os direitos da tese/dissertação são de seus autores
Centro de Informática de São Carlos
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2018. Todos os direitos reservados.