Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares

Reis, Willy Arthur Silva

doi:10.11606/D.45.2019.tde-02092019-212258

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.45.2019.tde-02092019-212258

Document

Master's Dissertation

Author

Reis, Willy Arthur Silva (Catálogo USP)

Full name

Willy Arthur Silva Reis

E-mail

Institute/School/College

Instituto de Matemática e Estatística

Knowledge Area

Computer Science

Date of Defense

2019-08-02

Published

São Paulo, 2019

Supervisor

Delgado, Karina Valdivia (Catálogo USP)

Committee

Delgado, Karina Valdivia (President)
Bianchi, Reinaldo Augusto da Costa
Costa, Anna Helena Reali

Title in Portuguese

Algoritmos assíncronos de iteração de política para Processos de Decisão Markovianos com Probabilidades Intervalares

Keywords in Portuguese

Iteração de política assíncrono
Planejamento probabilístico
Processos de Decisão Markovianos com Probabilidades Imprecisas

Abstract in Portuguese

Um Processo de Decisão Markoviano (MDP) pode ser usado para modelar problemas de decisão sequencial. No entanto, podem existir limitações na obtenção de probabilidades para modelagem da transição de estados ou falta de confiabilidade nas informações existentes sobre estas probabilidades. Um modelo menos restritivo e que pode resolver este problema é o Processo de Decisão Markoviano com Probabilidades Intervalares (BMDP), que permite a representação imprecisa das probabilidades de transição de estados e raciocínio sobre uma solução robusta. Para resolver BMDPs de horizonte infinito, existem os algoritmos síncronos de Iteração de Valor Intervalar e Iteração de Política Robusto, que são ineficientes quando o tamanho do espaço de estados é grande. Neste trabalho são propostos algoritmos assíncronos de Iteração de Política baseados no particionamento do espaço de estados em subconjuntos aleatórios (Robust Asynchronous Policy Iteration - RAPI) ou em componentes fortemente conexos (Robust Topological Policy Iteration - RTPI). Também são propostas formas de inicializar a função valor e a política dos algoritmos, de forma a melhorar a convergência destes. O desempenho dos algoritmos propostos é avaliado em comparação com o algoritmo de Iteração de Política Robusto para BMDPs para domínios de planejamento existentes e um novo domínio proposto. Os resultados dos experimentos realizados mostram que (i) quanto mais estruturado é o domínio, melhor é o desempenho do algoritmo RTPI; (ii) o uso de computação paralela no algoritmo RAPI possui um pequeno ganho computacional em relação à sua versão sequencial; e (iii) uma boa inicialização da função valor e política pode impactar positivamente o tempo de convergência dos algoritmos.

Title in English

Asynchronous policy iteration algorithms for Bounded-parameter Markov Decision Processes

Keywords in English

Asynchronous policy iteration
Markov Decision Processes with Imprecise Probabilities
Probabilistic planning

Abstract in English

A Markov Decision Process (MDP) can be used to model sequential decision problems. However, there may be limitations in obtaining probabilities for state transition modeling or lack of reliability in existing information on these probabilities. A less restrictive model that can solve this problem is the Bounded-parameter Markov Decision Process (BMDP), which allows the imprecise representation of the transition probabilities and reasoning about a robust solution. To solve infinite horizon BMDPs, there are synchronous algorithms such as Interval Value Iteration and Robust Policy Iteration, which are inefficient for large state spaces. In this work, we propose new asynchronous Policy Iteration algorithms based on state space partitioning in random subsets (Robust Asynchronous Policy Iteration - RAPI) or in strongly connected components (Robust Topological Policy Iteration - RTPI). We also propose ways to initialize the value function and policy of the algorithms, in order to improve their convergence. The performance of the proposed algorithms is evaluated in comparison with the Robust Policy Iteration algorithm for BMDPs for existing planning domains and a proposed new domain. The results of the experiments show that (i) the more structured the domain, the better is the performance of the RTPI algorithm; (ii) the use of parallel computing in the RAPI algorithm has a small computational gain compared to its sequential version; and (iii) a good initialization of the value function and policy can positively impact the convergence time of the algorithms.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

api_bmdp_Willy.pdf (2.57 Mbytes)

Publishing Date

2019-09-03

Derived works

WARNING: Learn what derived works are clicking here.