• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.100.2020.tde-30012020-115648
Document
Auteur
Nom complet
Dênis Benevolo Pais
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2020
Directeur
Jury
Delgado, Karina Valdivia (Président)
Fernández Tuesta, Esteban
Hase, Masayuki Oka
Lopes, Carlos Roberto
Titre en portugais
Abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDP
Mots-clés en portugais
CVaR
Política Estacionária
Processo de Decisão Markoviano
Processo de Decisão Markoviano Sensível ao Risco
Resumé en portugais
Processos de decisão Markovianos (Markov Decision Processes - MDPs) são amplamente utilizados para resolver problemas de tomada de decisão sequencial. O critério de desempenho mais utilizado em MDPs é a minimização do custo total esperado. Porém, esta abordagem não leva em consideração flutuações em torno da média, o que pode afetar significativamente o desempenho geral do processo. MDPs que lidam com esse tipo de problema são chamados de MDPs sensíveis a risco. Um tipo especial de MDP sensível a risco é o CVaR MDP, que inclui a métrica CVaR (Conditional-Value-at-Risk) comumente utilizada na área financeira. Um algoritmo que encontra a política ótima para CVaR MDPs é o algoritmo de Iteração de Valor com Interpolação Linear chamado CVaRVILI. O algoritmo CVaRVILI precisa resolver problemas de programação linear várias vezes, o que faz com que o algoritmo tenha um alto custo computacional. O objetivo principal deste trabalho é projetar abordagens eficientes e aproximadas com políticas estacionárias para CVaR MDPs. Para tal, é proposto um algoritmo que avalia uma política estacionária para CVaR MDPs de custo constante e que não precisa resolver problemas de programação linear, esse algoritmo é chamado de PECVaR. PECVaR é utilizado para inicializar o algoritmo CVaRVILI e também é utilizado para se obter um novo algoritmo heurístico para CVaR MDPs chamado MPCVaR (Multi Policy CVaR)
Titre en anglais
Efficient and Approximate Approaches with Stationary Policies for CVaR MDP
Mots-clés en anglais
CVaR
Markov Decision Process
Risk-Sensitive Markovian Decision Process
Stationary Policy
Resumé en anglais
Morkov Decision Process - MDPs are widely used to solve sequential decision-making process problems. The objective function or criteria of assessment mostly used in this problem's case is the minimization of the expectation of the total cost. However, this approach does not consider the variability of the cost( in other words , fluctuations related to the mean ), that can affect significantly your general performance. MDPs which deal with this kind of problems are called Risk Sensitive MDPs. A special kind of Risk Sensitive MDP is the CVaR MDP, which includes the CVaR (Conditional-Value-at-Risk) metric, a robust way in order to measure risks and commonly used to measure financial risk. One algorithm that finds the optimal policy for CVaR MDPs is the CVaR Value Iteration with linear Interpolation algorithm (CVaRVILI ). The CVaRVILI algorithm needs to solve linear programming problems several times, which makes the algorithm costly to compute. The main objective of this paper is to design efficient and approximate approaches with stationary policies for CVaR MDPs. For this purpose, an algorithm that evaluates a stationary policy for CVaR constant cost MDPs and that does not need to solve linear programming problems is proposed, this algorithm is called PECVaR. PECVaR is used to initialize the CVaRVILI algorithm and is also used to obtain a new heuristic algorithm for CVaR MDPs called MPCVaR (Multi Policy CVaR)
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-02-19
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.