Reinforcement learning applied to vessel navigation in fast-time simulations.

Andrade, José Amendola Netto

doi:10.11606/D.3.2020.tde-04052021-085708

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2020.tde-04052021-085708

Documento

Dissertação de Mestrado

Autor

Andrade, José Amendola Netto (Catálogo USP)

Nome completo

José Amendola Netto Andrade

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Engenharia de Controle e Automação Mecânica

Data de Defesa

2020-10-02

Imprenta

São Paulo, 2020

Orientador

Tannuri, Eduardo Aoun (Catálogo USP)
Cozman, Fabio Gagliardi - (Coorientador) (Catálogo USP)

Banca examinadora

Tannuri, Eduardo Aoun (Presidente)
Botelho, Silvia Silva da Costa
Costa, Anna Helena Reali

Título em inglês

Reinforcement learning applied to vessel navigation in fast-time simulations.

Palavras-chave em inglês

Fast-time simulations
Navigation in restricted waters
Reinforcement learning

Resumo em inglês

Fast-time simulations have been proven to be an essential tool for maritime engineering, not only in ship design but also by detecting critical situations and bottlenecks in projects of ports. However, such simulations are not performed by professional pilots and might become a complex task with results not so close to reality. Such issues can present an opportunity for introducing Reinforcement Learning methods in the maritime domain. This work proposes a Reinforcement Learning based solution which is able to automatically generate vessel trajectories in restricted waters under the effect of environment forces. The agent learns by interacting with the simulator and receiving reward signals. It also gives discrete commands in spaced time steps in order to emulate limitations of human piloting. The method evaluates the distributed version of two state-of-art Reinforcement Learning algorithms. It handles channel segments as separate episodes and includes curvature information for anticipating actions. Experiments were run considering realistic scenarios with narrow curved channels where wind and current incidence varies along the trajectory. The novelty of the work is the fact that the solution proposed requires no prior knowledge on dynamic models or predefined line paths to be followed by the ship. It may impact in fast-time simulations by requiring less human effort in trajectories generation. The method adopted keeps a simple representation and can be applied to any port channel configuration that respects local technical regulations.

Título em português

Aprendizado por reforço aplicado à navegação marítima em simulações de tempo acelerado.

Palavras-chave em português

Aprendizado computacional
Navegação em águas restritas
Navios
Portos
Simulação

Resumo em português

Simulações em tempo acelerado têm se provado uma ferramenta essencial para engenharia marítima, não somente para projeto de navios, mas também para detectar pontos críticos e possíveis gargalos em projetos de portos. Contudo, tais simulações não são realizadas por pilotos profissionais e isso pode se tornar uma tarefa complexa com resultados não tão fiéis à realidade. Tais questões podem apresentar uma oportunidade para introduzir Aprendizado por Reforço no domínio marítimo. Esse trabalho propõe uma solução baseada em Aprendizagem por Reforço que é capaz de gerar de forma automática trajetórias de navios em águas restritas sob o efeito de forças ambientais. O agente aprende interagindo com o simulador e recebendo sinais de reforço. Ele também provê comandos discretos em intervalos discretos de tempo para emular as limitações presentes na pilotagem humana. O método avalia a versão distribuída de dois algoritmos no estado da arte em aprendizado por reforço. Ele lida com segmentos de canais como episódios separados e inclui informação de curvatura para ações antecipatórias. Experimentos foram conduzidos considerando cenários realistas com canais estreitos e curvos onde a incidência de vento e corrente variam ao longo da trajetória. O caráter inovador do trabalho se dá pelo fato de que a solução proposta não requer qualquer conhecimento prévio dos modelos dinâmicos ou de caminhos pré-definidos para serem seguidos pelo navio. Isso pode impactar as simulações em tempo acelerado exigindo menos esforço humano na obtenção das trajetórias. O método adotado utiliza uma representação simples e técnicas locais.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

JoseAmendolaNettoAndradeCorr20.pdf (20.10 Mbytes)

Data de Publicação

2021-05-04

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.