Estratégias para otimização do algoritmo de Iteração de Valor Sensível a Risco

Borges, Igor Oliveira

doi:10.11606/D.100.2019.tde-09012019-103826

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.100.2019.tde-09012019-103826

Document

Mémoire de Maîtrise

Auteur

Borges, Igor Oliveira (Catálogo USP)

Nom complet

Igor Oliveira Borges

Adresse Mail

Unité de l'USP

Escola de Artes, Ciências e Humanidades

Domain de Connaissance

Méthodologie et Informatique Techniques

Date de Soutenance

2018-10-11

Editeur

São Paulo, 2018

Directeur

Delgado, Karina Valdivia (Catálogo USP)

Jury

Delgado, Karina Valdivia (Président)
Barros, Leliane Nunes de
Hase, Masayuki Oka
Lopes, Carlos Roberto

Titre en portugais

Estratégias para otimização do algoritmo de Iteração de Valor Sensível a Risco

Mots-clés en portugais

Planejamento Estocástico
Política Sensível a Risco
Processo de Decisão Markoviano Sensível a Risco

Resumé en portugais

Processos de decisão markovianos sensíveis a risco (Risk Sensitive Markov Decision Process - RS-MDP) permitem modelar atitudes de aversão e propensão ao risco no processo de tomada de decisão usando um fator de risco para representar a atitude ao risco. Para esse modelo, existem operadores que são baseados em funções de transformação linear por partes que incluem fator de risco e fator de desconto. Nesta dissertação são formulados dois algoritmos de Iteração de Valor Sensível a Risco baseados em um desses operadores, esses algoritmos são chamados de Iteração de Valor Sensível a Risco Síncrono (Risk Sensitive Value Iteration - RSVI) e Iteração de Valor Sensível a Risco Assíncrono (Asynchronous Risk Sensitive Value Iteration- A-RSVI). Também são propostas duas heurísticas que podem ser utilizadas para inicializar os valores dos algoritmos de forma a torná-los mais eficentes. Os resultados dos experimentos no domínio de Travessia do Rio em dois cenários de recompensas distintos mostram que: (i) o custo de processamento de políticas extremas a risco, tanto de aversão quanto de propensão, é elevado; (ii) um desconto elevado aumenta o tempo de convergência do algoritmo e reforça a sensibilidade ao risco adotada; (iii) políticas com valores para o fator de risco intermediários possuem custo computacional baixo e já possuem certa sensibilidade ao risco dependendo do fator de desconto utilizado; e (iv) o algoritmo A-RSVI com a heurística baseada no fator de risco pode reduzir o tempo para o algoritmo convergir, especialmente para valores extremos do fator de risco

Titre en anglais

Strategies for optimization of Risk Sensitive Value Iteration algorithm

Mots-clés en anglais

Risk Sensitive Markov Decision Process
Risk Sensitive Policy
Stochastic Planning

Resumé en anglais

Risk Sensitive Markov Decision Process (RS-MDP) allows modeling risk-averse and risk-prone attitudes in decision-making process using a risk factor to represent the risk-attitude. For this model, there are operators that are based on a piecewise linear transformation function that includes a risk factor and a discount factor. In this dissertation we formulate two Risk Sensitive Value Iteration algorithms based on one of these operators, these algorithms are called Synchronous Risk Sensitive Value Iteration (RSVI) and Asynchronous Risk Sensitive Value Iteration (A-RSVI). We also propose two heuristics that can be used to initialize the value of the RSVI or A-RSVI algorithms in order to make them more efficient. The results of experiments with the River domain in two distinct rewards scenarios show that: (i) the processing cost in extreme risk policies, for both risk-averse and risk-prone, is high; (ii) a high discount value increases the convergence time and reinforces the chosen risk attitude; (iii) policies with intermediate risk factor values have a low computational cost and show a certain sensitivity to risk based on the discount factor; and (iv) the A-RSVI algorithm with the heuristic based on the risk factor can decrease the convergence time of the algorithm, especially when we need a solution for extreme values of the risk factor

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

Dissertacao_Igor_PPgSI_v_corrigida.pdf (4.10 Mbytes)

Date de Publication

2019-01-22

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.