Método de diferenças temporais para sistemas lineares com Saltos Markovianos.

Ceballos Aya, Julio César

doi:10.11606/T.3.2000.tde-16102024-102926

Tese de Doutorado

DOI

10.11606/T.3.2000.tde-16102024-102926

Documento

Tese de Doutorado

Autor

Ceballos Aya, Julio César ( )

Nome completo

Julio César Ceballos Aya

Unidade da USP

Escola Politécnica

Programa ou Especialidade

Engenharia de Sistemas

Data de Defesa

2000-12-04

Imprenta

São Paulo, 2000

Orientador

Costa, Oswaldo Luiz do Valle ( )

Banca examinadora

Costa, Oswaldo Luiz do Valle (Presidente)

Cruz, José Jaime da

Marques, Ricardo Paulino

Terra, Marco Henrique

Yoneyama, Takashi

Título em português

Método de diferenças temporais para sistemas lineares com Saltos Markovianos.

Palavras-chave em português

Controle estocástico, Equações de Riccati

Resumo em português

Neste trabalho apresentamos uma técnica iterativa para calcular a solução maximal de um conjunto de equações algébricas de Riccati acopladas entre si (EARA) a tempo discreto, baseada no método de diferença temporal, quando a matriz de probabilidade P é conhecida. As EARA estão relacionadas ao controle ótimo de sistemas lineares com saltos Markovianos e têm sido estudadas exaustivamente, nos últimos anos. Traçaremos um paralelo com a teoria de algoritmos de diferenças temporais para processos Markovianos de decisão (PMD), para desenvolver um algoritmo iterativo dependente de um parâmetro 'lambda' 'pertence a' [0,1] para a solução maximal das EARA. Para o caso especial onde 'lambda' = 1 e 'lambda' = 0, temos asituação na qual os algoritmos se reduzem à iteração das equações a diferenças de Riccati (iteração de valores) e o método de quasi-linearização (iteração de estratégias), respectivamente. Apresentamos ainda uma técnica iterativa, baseada emsimulações de Monte Carlo, para calcular o controle ótimo de um problema de regulador linear quadrático de horizonte infinito para um sistema linear com saltos Markovianos a tempo discreto, quando a matriz de transição de probabilidade P não é conhecida. Para isso, traçamos paralelo com a teoria do algoritmo TD('lambda') para PMD para desenvolver o algoritmo TD('lambda') para controle ótimo associado à solução maximal de um EARA. Alguns exemplos numéricos são apresentados neste trabalho para esclarecer a teoria.

Título em inglês

Untitled in english

Palavras-chave em inglês

Riccati equations, Stochastic control

Resumo em inglês

In this paper, we present an iterative technique for deriving the maximal solution of a set of discrete-time coupled algebraic Riccati equations (CARE), based on temporal difference methods, for the case in which the transition probability matrix P of the Markov chain is known. CARE are related to the optimal control of Markovian jump linear systems and have been extensively studied over the last few years. We drawn a parallel with the theory of temporal difference algorithms for Markovian decision processes to develop a .......

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

JulioCesarCeballoAyaTese.pdf

Data de Publicação

2024-10-16

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.