Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Felizardo, Leonardo Kanashiro

doi:10.11606/T.3.2024.tde-26082024-093343

Tese de Doutorado

DOI

10.11606/T.3.2024.tde-26082024-093343

Documento

Tese de Doutorado

Autor

Felizardo, Leonardo Kanashiro ( )

Nome completo

Leonardo Kanashiro Felizardo

E-mail

Unidade da USP

Escola Politécnica

Programa ou Especialidade

Sistemas Eletrônicos

Data de Defesa

2024-01-11

Imprenta

São Paulo, 2024

Orientador

Hernandez, Emílio Del Moral ( )

Banca examinadora

Lobo Netto, Marcio (Presidente)

Alfieri, Arianna

Manerba, Daniele

Pacifici, Andrea

Silva, Valdinei Freire da

Título em português

Explorando os limites da aprendizagem por reforço profundo em ambientes simulados: um estudo sobre negociação de ativos financeiros e dimensionamento de lotes.

Palavras-chave em português

Aprendizado por reforço profundo, Pesquisa operacional, Sistemas autônomos, Sistemas de negociação, Sistemas multiagentes

Resumo em português

Dado o ambiente complexo e em rápida mudança de hoje, é essencial elaborar metodologias robustas para a tomada de decisões. No domínio dos processos algorítmicos de tomada de decisão, o paradigma de Reinforcement Learning (RL) tem-se afirmado progressivamente como uma metodologia preeminente. Essa abordagem é especialmente proficiente ao lidar com ambientes caracterizados por atributos dinâmicos e não determinísticos. No entanto, é fundamental analisar a adequação de RL para cada aplicação. Nesta tese, utilizamos uma estrutura matemática unificada baseada no controle estocástico que nos ajuda a identificar as principais características de um problema, permitindo a descoberta de métodos mais eficazes para melhor convergência para um espaço de solução. Com esta estrutura matemática, desenvolvemos e descrevemos as duas contribuições significativas feitas nesta tese. Primeiramente, propomos um método de classificação denominado Residual Network Long Short-Term Memory Actor (RSLSTM-A) para resolver o Active Single-Asset Trading Problem (ASATP). Nosso método supervisionado proposto apresentou resultados superiores ao estado da arte dos métodos de RL . Como o ASATP é um tipo de problema onde a matriz de probabilidades de transição não depende das ações do agente, é razoável supor que a Supervised Learning possa ser capaz de alcançar melhores resultados frente ao uso de RL. Além disso, assumindo que nesta instância do problema nao enfrentamos um dilema de exploração-aproveitamento (exploration-exploitation), os métodos contextual bandit podem não ser adequados, estabelecendo-se Supervised Learning a melhor abordagem. Na segunda parte dos resultados desta tese, validamos o potencial das técnicas de RL em outra instância do problema, o Stochastic Discrete Lot-Sizing Problem (SDLSP), propondo uma abordagem multiagente que supera as principais técnicas de RL. Além disso, aplicamos estados pós-decisão para construir um método de Approximate Dynamic Programming que pode superar métodos básicos e de Deep Reinforcement Learning em várias configurações de SDLSP.

Título em inglês

Exploring the boundaries of deep reinforcement learning in simulated environments: a study on financial trading and lot-sizing.

Palavras-chave em inglês

Approximate dynamic programming, Autonomous tading systems, Deep reinforcement learning, Multi-agent system, Operations research

Resumo em inglês

Given todays rapidly changing and complex environment, crafting robust methodologies for decision-making is essential. In algorithmic decision-making processes, the Reinforcement Learning (RL) paradigm has progressively asserted itself as a preeminent methodology. This approach is especially proficient when dealing with environments characterized by both dynamic and non-deterministic attributes. However, it is essential to analyze the suitability of RL for each problem application. In this thesis, we use a unified mathematical structure based on stochastic control that helps us identify the main characteristics of a problem, allowing the discovery of more effective methods for better convergence in the solution space. With this mathematical framework, we develop and describe the two significant contributions made in this thesis. Firstly, we propose a classification method named Residual Network Long Short-Term Memory Actor (RSLSTM-A) to solve the Active Single-Asset Trading Problem (ASATP). Our proposed supervised method presented results that are superior to state-of-the-art RL methods. Since the ASATP is a type of problem where the transition probability matrix is not dependent on the agents actions, it is reasonable to assume that Supervised Learning might achieve better results than RL. Also, assuming that in this problem instance, we do not face an exploration-exploitation dilemma, the contextual bandit methods may need to be revised, and Supervised Learning establishes itself as the best approach. In the second part of the results of this thesis, we validate the potential of RL techniques in another problem instance, the Stochastic Discrete Lot-Sizing Problem (SDLSP), by proposing a multi-agent approach that outperforms the leading RL techniques. Furthermore, we apply post-decision states to build an Approximate Dynamic Programming method that can outperform baseline and Deep Reinforcement Learning methods in various SDLSP settings.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

LeonardoKanashiroFelizardoCorr24.pdf

Data de Publicação

2024-08-27

Trabalhos decorrentes

FELIZARDO, L., et al. "Comparative study of Bitcoin price prediction using WaveNets, Recurrent Neural Networks and other Machine Learning Methods" [DOI: https://doi.org/10.1109/BESC48373.2019.8963009]. 2019 6th International Conference on Behavioral, Economic and Socio-Cultural Computing (BESC) [online], 2019, pp. 1-6.
FELIZARDO, L., et al. "Outperforming algorithmic trading Reinforcement Learning systems: A supervised approach to the cryptocurrency market" [DOI: https://doi.org/10.1016/j.eswa.2022.117259].Expert Systems with Applications [online], 15 September 2022.
FELIZARDO, L., et al. "Reinforcement Learning approaches for the Stochastic Discrete Lot-Sizing Problem on parallel machines" [DOI: https://doi.org/10.1016/j.eswa.2023.123036]. Expert Systems With Applications [online], 15 July 2024.
FELIZARDO, L., et al. "Solving the optimal stopping problem with Reinforcement Learning: an application in financial option exercise" [DOI: https://doi.org/10.1109/IJCNN55064.2022.9892333]. 2022 International Joint Conference on Neural Networks (IJCNN) [online], 18-23 July 2022.
GIOIA, D., FELIZARDO, L., et al. "Inventory management of vertically differentiated perishable products with stock-out based substitution" [DOI: https://doi.org/10.1016/j.ifacol.2022.10.115]. Manufacturing Modelling, Management and Control - 10th MIM [online], 2022.
GIOIA, D., FELIZARDO, L., et al. "Simulation-Based Inventory Management of Perishable Products Via Linear Discrete Choice Models" [DOI: https://doi.org/10.1016/j.cor.2023.106270]. Computers & Operations Research [online], September 2023.
PAIVA, F., FELIZARDO, L., et al. "Intelligent Trading Systems: A Sentiment-Aware Reinforcement Learning Approach" [DOI: https://doi.org/10.1145/3490354.3494445]. 2021 6th International Conference on AI in Finance (ICAIF) [online], 2021, pp. 1-8.
URBINATE, E., FELIZARDO, L., et al. "Deep learning stacking for financial time series forecasting: an analysis with synthetic and real-world time series" [DOI: https://doi.org/10.5753/eniac.2022]. 2022: Anais do XIX Encontro Nacional de InteligÃªncia Artificial e Computacional [online], 28 November 2022.