Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Bueno, Thiago Pereira

doi:10.11606/T.45.2021.tde-29102021-133418

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.45.2021.tde-29102021-133418

Documento

Tese de Doutorado

Autor

Bueno, Thiago Pereira (Catálogo USP)

Nome completo

Thiago Pereira Bueno

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Ciência da Computação

Data de Defesa

2021-08-31

Imprenta

São Paulo, 2021

Orientador

Barros, Leliane Nunes de (Catálogo USP)
Mauá, Denis Deratani - (Coorientador) (Catálogo USP)

Banca examinadora

Barros, Leliane Nunes de (Presidente)
Cozman, Fabio Gagliardi
Jurgensen, Felipe Trevisan
Meneguzzi, Felipe Rech
Sanner, Scott

Título em inglês

Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Palavras-chave em inglês

Deep learning
Deep neural nets
Information relaxation
Markov Decision Process
MDP
Policy search
Probabilistic planning
Stochastic computation graphs
Stochastic gradient descent
Trajectory optimization

Resumo em inglês

Deep Learning has achieved remarkable success in a range of complex perception tasks, games, and other real-world applications. At a high level, it can be argued that the main reason behind the astonishing performance of deep neural networks is the stochastic gradient descent method, which is based on the well-known error backpropagation algorithm. Inspired by the recent applications of deep learning, we propose to investigate the opportunities and challenges in adapting the backpropagation algorithm as a planning technique in continuous sequential decision-making problems. We make the key observation that if a differentiable model of the dynamics of a system can be made available, then an autonomous agent can leverage the advanced gradient-based optimizers developed in the context of learning algorithms to solve long-horizon planning problems. Besides reformulating the recently-proposed deterministic planning through backpropagation algorithm as a form of gradient-based trajectory optimization technique, we propose several extensions to the more general setting of stochastic decision processes in AI planning. In particular, we propose a framework to train Deep Reactive Policies offline for fast decision-making based on stochastic computation graphs and the re-parametrization trick. In addition, we investigate how the duality theory of information relaxation can be adapted to obtain a gradient-based online planning algorithm that interleaves optimization and execution. Empirical experiments show the effectiveness of our proposed approaches in a variety of sequential decision-making problems exhibiting nonlinear dynamics and stochastic exogenous events, such as path planning, multi-reservoir control and HVAC systems.

Título em português

Planejamento em grafos de computação estocástica: resolvendo problemas estocásticos não-lineares com retropropagação de erros

Palavras-chave em português

Aprendizado profundo
Busca de política
Gradiente descendente estocástico
Grafo de computação estocástica
MDP
Otimização de trajetória
Planejamento probabilístico
Processo de Decisão Markoviano
Redes neurais profundas
Relaxação de informação

Resumo em português

A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado em grafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

PhD_Thesis_Thiago_Bueno_Planning_in_Stochastic_Computation_Graphs.pdf (4.24 Mbytes)

Data de Publicação

2022-02-03

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.