Descoberta e reuso de polí­ticas parciais probabilísticas no aprendizado por reforço.

Bonini, Rodrigo Cesar

doi:10.11606/D.3.2019.tde-18072019-143338

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2019.tde-18072019-143338

Documento

Dissertação de Mestrado

Autor

Bonini, Rodrigo Cesar (Catálogo USP)

Nome completo

Rodrigo Cesar Bonini

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Engenharia de Computação

Data de Defesa

2018-11-21

Imprenta

São Paulo, 2018

Orientador

Costa, Anna Helena Reali (Catálogo USP)

Banca examinadora

Costa, Anna Helena Reali (Presidente)
Bianchi, Reinaldo Augusto da Costa
Homem, Thiago Pedro Donadon

Título em português

Descoberta e reuso de políticas parciais probabilísticas no aprendizado por reforço.

Palavras-chave em português

Aprendizado de máquina
Aprendizado por reforço
Inteligência artificial
Políticas parciais
Processos de decisão de Markov
Transferência de Conhecimento

Resumo em português

O aprendizado por reforço é uma técnica bem sucedida, porém lenta, para treinar agentes autônomos. Algumas soluções baseadas em políticas parciais podem ser usadas para acelerar o aprendizado e para transferir comportamentos aprendidos entre tarefas encapsulando uma política parcial. No entanto, geralmente essas políticas parciais são específicas para uma única tarefa, não levam em consideração recursos semelhantes entre tarefas e podem não corresponder exatamente a um comportamento ideal quando transferidas para outra tarefa diferente. A transferência descuidada pode fornecer más soluções para o agente, dificultando o processo de aprendizagem. Sendo assim, este trabalho propõe uma maneira de descobrir e reutilizar de modo probabilístico políticas parciais orientadas a objetos aprendidas, a fim de permitir melhores escolhas de atuação para o agente em múltiplas tarefas diferentes. A avaliação experimental mostra que a proposta é capaz de aprender e reutilizar com sucesso políticas parciais em diferentes tarefas.

Título em inglês

Discovery and reuse of probabilistic partial policies in reinforcement learning.

Palavras-chave em inglês

Artificial intelligence
Machine learning
Markov decision process
Partial policies
Reinforcement learning
Transfer learning

Resumo em inglês

Reinforcement Learning is a successful yet slow technique to train autonomous agents. Option-based solutions can be used to accelerate learning and to transfer learned behaviors across tasks by encapsulating a partial policy. However, commonly these options are specific for a single task, do not take in account similar features between tasks and may not correspond exactly to an optimal behavior when transferred to another task. Therefore, careless transfer might provide bad options to the agent, hampering the learning process. This work proposes a way to discover and reuse learned objectoriented options in a probabilistic way in order to enable better actuation choices to the agent in multiple different tasks. The experimental evaluation show that the proposal is able to learn and successfully reuse options across different tasks.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

RodrigoCesarBoniniOrig18.pdf (1.02 Mbytes)

Data de Publicação

2019-07-24

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.