Uso de política abstrata estocástica na navegação robótica.

Matos, Tiago

doi:10.11606/D.3.2011.tde-12122011-152445

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2011.tde-12122011-152445

Documento

Dissertação de Mestrado

Autor

Matos, Tiago (Catálogo USP)

Nome completo

Tiago Matos

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Sistemas Digitais

Data de Defesa

2011-09-06

Imprenta

São Paulo, 2011

Orientador

Reali Costa, Anna Helena (Catálogo USP)

Banca examinadora

Reali Costa, Anna Helena (Presidente)
Barros, Leliane Nunes de
Romero, Roseli Aparecida Francelin

Título em português

Uso de política abstrata estocástica na navegação robótica.

Palavras-chave em português

Aprendizado computacional relacional
Inteligência artificial
Robótica

Resumo em português

A maioria das propostas de planejamento de rotas para robôs móveis não leva em conta a existência de soluções para problemas similares ao aprender a política para resolver um novo problema; e devido a isto, o problema de navegação corrente deve ser resolvido a partir do zero, o que pode ser excessivamente custoso em relação ao tempo. Neste trabalho é realizado o acoplamento do conhecimento prévio obtido de soluções similares, representado por uma política abstrata, a um processo de aprendizado por reforço. Além disto, este trabalho apresenta uma arquitetura para o aprendizado por reforço simultâneo, de nome ASAR, onde a política abstrata auxilia na inicialização da política para o problema concreto, e ambas as políticas são refinadas através da exploração. A fim de reduzir a perda de informação na construção da política abstrata é proposto um algoritmo, nomeado X-TILDE, que constrói uma política abstrata estocástica. A arquitetura proposta é comparada com um algoritmo de aprendizado padrão e os resultados demonstram que ela é eficaz em acelerar a construção da política para problemas práticos.

Título em inglês

Using stochastic abstract policies in robotic navigation.

Palavras-chave em inglês

Knowledge transfer
Policy abstraction
Reinforcement learning
Relational MDP
Robotic navigation

Resumo em inglês

Most work in path-planning approaches for mobile robots does not take into account existing solutions to similar problems when learning a policy to solve a new problem, and consequently solves the current navigation problem from scratch, what can be very time consuming. In this work we couple a prior knowledge obtained from a similar solution to a reinforcement learning process. The prior knowledge is represented by an abstract policy. In addition, this work presents a framework for simultaneous reinforcement learning called ASAR, where the abstract policy helps start up the policy for the concrete problem, and both policies are refined through exploration. For the construction of the abstract policy we propose an algorithm called X-TILDE, that builds a stochastic abstract policy, in order to reduce the loss of information. The proposed framework is compared with a default learning algorithm and the results show that it is effective in speeding up policy construction for practical problems.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Dissertacao_Tiago_Matos.pdf (688.32 Kbytes)

Data de Publicação

2011-12-14

Trabalhos decorrentes

AVISO: O material descrito abaixo refere-se a trabalhos decorrentes desta tese ou dissertação. O conteúdo desses trabalhos é de inteira responsabilidade do autor da tese ou dissertação.

BEIRIGO, Rafael Lemes, et al. Avaliação de Políticas Abstratas na Transferência de Conhecimento em Navegação Robótica. Revista de Sistemas e Computação [online], 2012, vol. 2, p. 17-25. Dispon?vel em: http://www.revistas.unifacs.br/index.php/rsc/article/view/2420.
Bergamo, Yannick P., et al. Accelerating reinforcement learning by reusing abstract policies. In VIII Encontro Nacional de Inteligência Artificial (ENIA 2011), Natal, RN, 2011. Encontro Nacional de Inteligência Artificial. : SBC, 2011.
MATOS, T., et al. Simultaneous abstract and concrete reinforcement learning. In 9th Symposium on Abstraction, Reformulation and Approximation (SARA 2011), Parador de Cardona, Spain, 2011. 9th Symposium on Abstraction, Reformulation and Approximation.Menlo Park, CA : AAAI Press, 2011.
MATOS, T., e COSTA, Anna Helena Reali. Aprendizado por Reforço Relacional para Reaproveitamento do Conhecimento em Navegação Robótica. In WTDIA 2010 - V Workshop on MSc Dissertation and PhD Thesis in Artificial Intelligence, São Bernardo do Campo, 2010. Anais do WTDIA 2010 - V Workshop on MSc Dissertation and PhD Thesis in Artificial Intelligence. : SBC, 2010.