Dissertação de Mestrado
Documento
Dissertação de Mestrado
Autor
Nome completo
André Ferrari Moukarzel
E-mail
Unidade da USP
Instituto de Matemática e Estatística
Programa ou Especialidade
Data de Defesa
2024-11-06
Imprenta
São Paulo, 2024
Orientador
Banca examinadora
Barros, Leliane Nunes de (Presidente)
Silva, Valdinei Freire da
Trevizan, Felipe Werndl
Título em inglês
Learning generalized policies for Markov decision processes with imprecise probabilities
Palavras-chave em inglês
Generalized planning, Imprecise probabilities, Neural network, Probabilistic planning
Resumo em inglês
ASNet is a neural network architecture used in probabilistic planning that exploits the relational structure between actions and propositions of a given domain to learn generalized policies. By using imitation learning over the action choices of a teacher (e.g. a state-of-art planner), ASNets are able to learn a policy that can solve large problems using a training set of small problems. Motivated by that, this work investigates the application of ASNets to solve probabilistic planning with imprecise probabilities modeled as Stochastic Shortest Path problems (SSP-IPs), for which the out-of-shelf planners can only solve small instances. We also show that training ASNets with relaxed SSP-IP problems, based on state-set transitions problems (SSP-STs) where solutions are less costly, can still lead to learning of good generalized policies. To define the optimal configuration of ASNets to learn generalized policies in environments with imprecise probability transitions, we present an extensive empirical analysis with training sets of different sizes and variations of hyper-parameters. The results show that, while state-of-art MDP-IP solutions were able to solve problems with up to 80 state-variables (i.e. 2 80 states) in less than 1000 seconds, the ASNet-based solution with policy trained on small MDP-IP domain instances were able to solve problems with more than 260 statevariables (i.e. 2 260 states) in less then 1 second (ASNet inference time) using a single generalized policy learned with only 6480 seconds of training
Título em português
Aprendendo políticas generalizadas para processos de decisão de Markov com probabilidades imprecisas
Palavras-chave em português
Planejamento generalizado, Planejamento probabilístico, Probabilidades imprecisas, Rede neural
Resumo em português
ASNet é uma arquitetura de rede neural utilizada no planejamento probabilístico SSP-MDPs ou SSPs, em forma curta), que explora a estrutura relacional entre ações e proposições de um domínio para aprender políticas generalizadas. Ao utilizar aprendizado por imitação sobre as escolhas de ação de um professor (por exemplo, um planejador estado-da-arte), ASNet é capaz de aprender uma política que pode resolver grandes problemas usando um conjunto de treinamento de problemas pequenos. Motivado por isso, este trabalho investiga a aplicação de ASNet para resolver planejamento probabilístico com probabilidades imprecisas modeladas como problema do Caminho Estocástico Mais Curto (SSP-IPs), para os quais os planejadores de prateleira só conseguem resolver instâncias pequenas. Também mostramos que treinar ASNet com problemas SSP-IP relaxados, baseados em problemas com transições definidas por conjunto de estados (SSP-STs), onde as soluções são menos custosas, ainda pode levar à aprendizagem de boas políticas generalizadas. Para definir a configuração ótima da ASNet para aprender políticas generalizadas em ambientes com transições de probabilidades imprecisas, apresentamos uma análise empírica extensiva com conjuntos de treinamento de diferentes tamanhos e variações de hiperparâmetros em três domínios de planejamento. Os resultados mostram que, enquanto as soluções MDP-IP de última geração foram capazes de resolver problemas de Triangle Tireworld com até 80 variáveis de estado (ou seja, 2 80 estados) em menos de 1000 segundos, a solução baseada em ASNet com políticas treinadas em pequenas instâncias de MDP-IP foi capaz de resolver problemas com mais de 260 variáveis de estado (ou seja, 2 260 estados) em menos de 1 segundo (tempo de inferência de ASNet) utilizando uma única política generalizada aprendida com apenas 6480 segundos de treinamento.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2024-12-23
Trabalhos decorrentes
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.