Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Bueno, Thiago Pereira

doi:10.11606/T.45.2021.tde-29102021-133418

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.45.2021.tde-29102021-133418

Document

Doctoral Thesis

Author

Bueno, Thiago Pereira (Catálogo USP)

Full name

Thiago Pereira Bueno

E-mail

Institute/School/College

Instituto de Matemática e Estatística

Knowledge Area

Computer Science

Date of Defense

2021-08-31

Published

São Paulo, 2021

Supervisor

Barros, Leliane Nunes de (Catálogo USP)
Mauá, Denis Deratani - (Co-supervisor) (Catálogo USP)

Committee

Barros, Leliane Nunes de (President)
Cozman, Fabio Gagliardi
Jurgensen, Felipe Trevisan
Meneguzzi, Felipe Rech
Sanner, Scott

Title in English

Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation

Keywords in English

Deep learning
Deep neural nets
Information relaxation
Markov Decision Process
MDP
Policy search
Probabilistic planning
Stochastic computation graphs
Stochastic gradient descent
Trajectory optimization

Abstract in English

Deep Learning has achieved remarkable success in a range of complex perception tasks, games, and other real-world applications. At a high level, it can be argued that the main reason behind the astonishing performance of deep neural networks is the stochastic gradient descent method, which is based on the well-known error backpropagation algorithm. Inspired by the recent applications of deep learning, we propose to investigate the opportunities and challenges in adapting the backpropagation algorithm as a planning technique in continuous sequential decision-making problems. We make the key observation that if a differentiable model of the dynamics of a system can be made available, then an autonomous agent can leverage the advanced gradient-based optimizers developed in the context of learning algorithms to solve long-horizon planning problems. Besides reformulating the recently-proposed deterministic planning through backpropagation algorithm as a form of gradient-based trajectory optimization technique, we propose several extensions to the more general setting of stochastic decision processes in AI planning. In particular, we propose a framework to train Deep Reactive Policies offline for fast decision-making based on stochastic computation graphs and the re-parametrization trick. In addition, we investigate how the duality theory of information relaxation can be adapted to obtain a gradient-based online planning algorithm that interleaves optimization and execution. Empirical experiments show the effectiveness of our proposed approaches in a variety of sequential decision-making problems exhibiting nonlinear dynamics and stochastic exogenous events, such as path planning, multi-reservoir control and HVAC systems.

Title in Portuguese

Planejamento em grafos de computação estocástica: resolvendo problemas estocásticos não-lineares com retropropagação de erros

Keywords in Portuguese

Aprendizado profundo
Busca de política
Gradiente descendente estocástico
Grafo de computação estocástica
MDP
Otimização de trajetória
Planejamento probabilístico
Processo de Decisão Markoviano
Redes neurais profundas
Relaxação de informação

Abstract in Portuguese

A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado em grafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

PhD_Thesis_Thiago_Bueno_Planning_in_Stochastic_Computation_Graphs.pdf (4.24 Mbytes)

Publishing Date

2022-02-03

Derived works

WARNING: Learn what derived works are clicking here.