• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.45.2021.tde-29102021-133418
Documento
Autor
Nome completo
Thiago Pereira Bueno
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2021
Orientador
Banca examinadora
Barros, Leliane Nunes de (Presidente)
Cozman, Fabio Gagliardi
Jurgensen, Felipe Trevisan
Meneguzzi, Felipe Rech
Sanner, Scott
Título em inglês
Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation
Palavras-chave em inglês
Deep learning
Deep neural nets
Information relaxation
Markov Decision Process
MDP
Policy search
Probabilistic planning
Stochastic computation graphs
Stochastic gradient descent
Trajectory optimization
Resumo em inglês
Deep Learning has achieved remarkable success in a range of complex perception tasks, games, and other real-world applications. At a high level, it can be argued that the main reason behind the astonishing performance of deep neural networks is the stochastic gradient descent method, which is based on the well-known error backpropagation algorithm. Inspired by the recent applications of deep learning, we propose to investigate the opportunities and challenges in adapting the backpropagation algorithm as a planning technique in continuous sequential decision-making problems. We make the key observation that if a differentiable model of the dynamics of a system can be made available, then an autonomous agent can leverage the advanced gradient-based optimizers developed in the context of learning algorithms to solve long-horizon planning problems. Besides reformulating the recently-proposed deterministic planning through backpropagation algorithm as a form of gradient-based trajectory optimization technique, we propose several extensions to the more general setting of stochastic decision processes in AI planning. In particular, we propose a framework to train Deep Reactive Policies offline for fast decision-making based on stochastic computation graphs and the re-parametrization trick. In addition, we investigate how the duality theory of information relaxation can be adapted to obtain a gradient-based online planning algorithm that interleaves optimization and execution. Empirical experiments show the effectiveness of our proposed approaches in a variety of sequential decision-making problems exhibiting nonlinear dynamics and stochastic exogenous events, such as path planning, multi-reservoir control and HVAC systems.
Título em português
Planejamento em grafos de computação estocástica: resolvendo problemas estocásticos não-lineares com retropropagação de erros
Palavras-chave em português
Aprendizado profundo
Busca de política
Gradiente descendente estocástico
Grafo de computação estocástica
MDP
Otimização de trajetória
Planejamento probabilístico
Processo de Decisão Markoviano
Redes neurais profundas
Relaxação de informação
Resumo em português
A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado em grafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-02-03
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.