Tese de Doutorado

Documento
Tese de Doutorado
Nome completo
Leonardo Kanashiro Felizardo
E-mail
Unidade da USP
Escola Politécnica
Área do Conhecimento
Data de Defesa
2024-01-11
Imprenta
São Paulo, 2024
Banca examinadora
Lobo Netto, Marcio (Presidente)
Alfieri, Arianna
Manerba, Daniele
Pacifici, Andrea
Silva, Valdinei Freire da
Título em português
Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.
Palavras-chave em português
Aprendizado por reforço profundo, Pesquisa operacional, Sistemas autônomos, Sistemas de negociação, Sistemas multiagentes
Resumo em português
Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.
Título em inglês
Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.
Palavras-chave em inglês
Approximate dynamic programming, Autonomous tading systems, Deep reinforcement learning, Multi-agent system, Operations research
Resumo em inglês
Given todays rapidly changing and complex environment, crafting robust methodologies for decision-making is essential. In algorithmic decision-making processes, the Reinforcement Learning (RL) paradigm has progressively asserted itself as a preeminent methodology. This approach is especially proficient when dealing with environments characterized by both dynamic and non-deterministic attributes. However, it is essential to analyze the suitability of RL for each problem application. In this thesis, we use a unified mathematical structure based on stochastic control that helps us identify the main characteristics of a problem, allowing the discovery of more effective methods for better convergence in the solution space. With this mathematical framework, we develop and describe the two significant contributions made in this thesis. Firstly, we propose a classification method named Residual Network Long Short-Term Memory Actor (RSLSTM-A) to solve the Active Single-Asset Trading Problem (ASATP). Our proposed supervised method presented results that are superior to state-of-the-art RL methods. Since the ASATP is a type of problem where the transition probability matrix is not dependent on the agents actions, it is reasonable to assume that Supervised Learning might achieve better results than RL. Also, assuming that in this problem instance, we do not face an exploration-exploitation dilemma, the contextual bandit methods may need to be revised, and Supervised Learning establishes itself as the best approach. In the second part of the results of this thesis, we validate the potential of RL techniques in another problem instance, the Stochastic Discrete Lot-Sizing Problem (SDLSP), by proposing a multi-agent approach that outperforms the leading RL techniques. Furthermore, we apply post-decision states to build an Approximate Dynamic Programming method that can outperform baseline and Deep Reinforcement Learning methods in various SDLSP settings.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Data de Publicação
2024-08-27

Trabalhos decorrentes

  • FELIZARDO, L., et al. "Comparative study of Bitcoin price prediction using WaveNets, Recurrent Neural Networks and other Machine Learning Methods" [DOI: https://doi.org/10.1109/BESC48373.2019.8963009]. 2019 6th International Conference on Behavioral, Economic and Socio-Cultural Computing (BESC) [online], 2019, pp. 1-6.
  • FELIZARDO, L., et al. "Outperforming algorithmic trading Reinforcement Learning systems: A supervised approach to the cryptocurrency market" [DOI: https://doi.org/10.1016/j.eswa.2022.117259].Expert Systems with Applications [online], 15 September 2022.
  • FELIZARDO, L., et al. "Reinforcement Learning approaches for the Stochastic Discrete Lot-Sizing Problem on parallel machines" [DOI: https://doi.org/10.1016/j.eswa.2023.123036]. Expert Systems With Applications [online], 15 July 2024.
  • FELIZARDO, L., et al. "Solving the optimal stopping problem with Reinforcement Learning: an application in financial option exercise" [DOI: https://doi.org/10.1109/IJCNN55064.2022.9892333]. 2022 International Joint Conference on Neural Networks (IJCNN) [online], 18-23 July 2022.
  • GIOIA, D., FELIZARDO, L., et al. "Inventory management of vertically differentiated perishable products with stock-out based substitution" [DOI: https://doi.org/10.1016/j.ifacol.2022.10.115]. Manufacturing Modelling, Management and Control - 10th MIM [online], 2022.
  • GIOIA, D., FELIZARDO, L., et al. "Simulation-Based Inventory Management of Perishable Products Via Linear Discrete Choice Models" [DOI: https://doi.org/10.1016/j.cor.2023.106270]. Computers & Operations Research [online], September 2023.
  • PAIVA, F., FELIZARDO, L., et al. "Intelligent Trading Systems: A Sentiment-Aware Reinforcement Learning Approach" [DOI: https://doi.org/10.1145/3490354.3494445]. 2021 6th International Conference on AI in Finance (ICAIF) [online], 2021, pp. 1-8.
  • URBINATE, E., FELIZARDO, L., et al. "Deep learning stacking for financial time series forecasting: an analysis with synthetic and real-world time series" [DOI: https://doi.org/10.5753/eniac.2022]. 2022: Anais do XIX Encontro Nacional de Inteligência Artificial e Computacional [online], 28 November 2022.

Serviços

Carregando...