• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.45.2021.tde-29102021-133418
Document
Auteur
Nom complet
Thiago Pereira Bueno
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2021
Directeur
Jury
Barros, Leliane Nunes de (Président)
Cozman, Fabio Gagliardi
Jurgensen, Felipe Trevisan
Meneguzzi, Felipe Rech
Sanner, Scott
 
Titre en anglais
Planning in stochastic computation graphs: solving stochastic nonlinear problems with backpropagation
Mots-clés en anglais
Deep learning
Deep neural nets
Information relaxation
Markov Decision Process
MDP
Policy search
Probabilistic planning
Stochastic computation graphs
Stochastic gradient descent
Trajectory optimization
Resumé en anglais
Deep Learning has achieved remarkable success in a range of complex perception tasks, games, and other real-world applications. At a high level, it can be argued that the main reason behind the astonishing performance of deep neural networks is the stochastic gradient descent method, which is based on the well-known error backpropagation algorithm. Inspired by the recent applications of deep learning, we propose to investigate the opportunities and challenges in adapting the backpropagation algorithm as a planning technique in continuous sequential decision-making problems. We make the key observation that if a differentiable model of the dynamics of a system can be made available, then an autonomous agent can leverage the advanced gradient-based optimizers developed in the context of learning algorithms to solve long-horizon planning problems. Besides reformulating the recently-proposed deterministic planning through backpropagation algorithm as a form of gradient-based trajectory optimization technique, we propose several extensions to the more general setting of stochastic decision processes in AI planning. In particular, we propose a framework to train Deep Reactive Policies offline for fast decision-making based on stochastic computation graphs and the re-parametrization trick. In addition, we investigate how the duality theory of information relaxation can be adapted to obtain a gradient-based online planning algorithm that interleaves optimization and execution. Empirical experiments show the effectiveness of our proposed approaches in a variety of sequential decision-making problems exhibiting nonlinear dynamics and stochastic exogenous events, such as path planning, multi-reservoir control and HVAC systems.
 
Titre en portugais
Planejamento em grafos de computação estocástica: resolvendo problemas estocásticos não-lineares com retropropagação de erros
Mots-clés en portugais
Aprendizado profundo
Busca de política
Gradiente descendente estocástico
Grafo de computação estocástica
MDP
Otimização de trajetória
Planejamento probabilístico
Processo de Decisão Markoviano
Redes neurais profundas
Relaxação de informação
Resumé en portugais
A área de Aprendizado Profundo tem obtido grande sucesso em tarefas complexas de percepção, jogos e outras aplicações práticas. Pode-se argumentar, de uma perspectiva geral, que a principal razão do desempenho surpreendente de redes neurais profundas está relacionada ao método do gradiente descendente, o qual por sua vez é baseado no reconhecido algoritmo de retropropagação de erros. Inspirado por aplicações recentes de aprendizado profundo, propõe-se investigar os desafios e oportunidades em adaptar a retropropagação de erros como uma técnica de planejamento em problemas de tomada de decisão sequencial em espaços contínuos. Observa-se, em particular, que se um modelo diferenciável da dinâmica do sistema sob controle estiver disponível, então é possível que um agente autônomo possa se aproveitar de otimizadores avançados baseados em gradientes desenvolvidos no contexto de algoritmos de aprendizado para resolução de problemas de planejamento de longo horizonte. Além de reformular a técnica recentemente proposta de planejamento via retropropagação como uma forma de otimização de trajetória baseada em gradiente, essa tese de doutorado propõe diversas extensões para o caso mais geral de problemas de decisão sequencial em espaços contínuos sob incerteza estocástica estudados em planejamento automatizado em inteligência artificial. Em particular, propõe-se um arcabouço de pré-treinamento de Políticas Reativas Profundas com foco na abordagem de tomada de decisão rápida baseado em grafos de computação estocástica e na técnica de re-parametrização de distribuições. Além disso, investiga-se como a teoria da dualidade de relaxação de informação pode ser adaptada para o desenvolvimento de algoritmos de planejamento baseados em gradientes que intercalam otimização e execução. Resultados empíricos mostram a efetividade da abordagem proposta em problemas de tomada de decisão sequencial envolvendo dinâmica não-linear e eventos exógenos estocásticos, como por exemplo, planejamento de caminho, controle de recursos em multi-reservatórios e controle de sistemas físicos de aquecimento, ventilação e ar condicionado.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-02-03
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs.
CeTI-SC/STI
© 2001-2024. Bibliothèque Numérique de Thèses et Mémoires de l'USP.