Aprendizado por reforço profundo para navegação visual semântica com memória

Santos, Iury Batista de Andrade

doi:10.11606/D.55.2020.tde-16122020-164714

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.55.2020.tde-16122020-164714

Documento

Disertación de Maestría

Autor

Santos, Iury Batista de Andrade (Catálogo USP)

Nombre completo

Iury Batista de Andrade Santos

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2020-11-27

Publicación

São Carlos, 2020

Director

Romero, Roseli Aparecida Francelin (Catálogo USP)

Tribunal

Romero, Roseli Aparecida Francelin (Presidente)
Calvo, Rodrigo
Grassi Junior, Valdir
Wolf, Denis Fernando

Título en portugués

Aprendizado por reforço profundo para navegação visual semântica com memória

Palabras clave en portugués

Aprendizado por reforço profundo
Aprendizagem profunda
Navegação semântica
Navegação visual
Robótica

Resumen en portugués

A navegação de robôs móveis é um tema amplamente estudado ao longo de décadas, sendo esta uma atividade crucial para a inserção de robôs em diversos cenários. Contudo, ambientes complexos e mutáveis, como interiores de residências, ainda apresentam desafios a serem superados, sendo objetos de estudo em diversos trabalhos que adotam abordagens com visão computacional sem usar mapas topológicos ou métricos. Este trabalho propõe uma arquitetura para navegação de robôs móveis visando a busca objeto-direcionada em ambientes internos de residências, utilizando métodos de visão computacional e informações semânticas com memória. A arquitetura proposta tem capacidade de generalizar por meio de conhecimento a priori dos objetos detectados em cenas e também reforçar relacionamentos por meio de experiências passadas, em uma abordagem de navegação baseada em aprendizado. Para tanto, são adotados os seguintes modelos de aprendizado de máquina: redes neurais convolucionais, redes neurais de grafos, redes neurais recorrentes e aprendizado por reforço profundo, em uma abordagem objeto-direcionada. Esta arquitetura foi treinada em diversos ambientes domésticos, adotando-se um ambiente simulado fotorrealista. Esta arquitetura foi avaliada por meio de análise qualitativa, com execuções de episódios do agente no ambiente simulado de maneira visual, e análise quantitativa, usando medidas como taxas de sucesso e taxas de sucesso ponderadas pela trajetória. Políticas aprendidas por meio da arquitetura proposta foram comparadas com agentes de política randômica, com agentes utilizando apenas aprendizado por reforço e, por fim, com agentes com políticas de navegação semântica sem memória. Os experimentos realizados mostraram um comportamento mais exploratório da arquitetura proposta em relação a outros sem memória, obtendo maiores taxas de êxito nas tarefas em ambas as métricas. Quando exposto a cenários mais restritos, e por conseguinte de maior dificuldade, as políticas aprendidas por estes modelos apresentaram os melhores resultados, com menor queda no desempenho quando comparados as execuções menos restritivas e com os demais modelos. Desta forma, o modelo proposto apresentou resultados consistentes de melhoria nas políticas aprendidas pelos agentes, resultando em comportamentos bem sucedidos para tarefas de busca objeto-direcionada em ambientes internos de residências.

Título en inglés

Deep reinforcement learning for visual semantic navigation with memory

Palabras clave en inglés

Deep learning
Deep reinforcement learning
Robotics
Semantic navigation
Visual navigation

Resumen en inglés

The navigation of mobile robots is a subject vastly studied in the last decades, being a crucial task for the insertion of robots in diverse scenarios. However, complex and changeable environments, as indoors of houses, still shows challengers to be transpassed, being an object of study in several works that adopts approaches as computer vision without topological or metric maps. This work proposes an architecture for the navigation of mobile robots aiming target-object search in indoor ambiances of houses, using computer vision methods and semantic information with memory. The proposed architecture can generalize through a priori acknowledgment of detect objects in scenes and reinforce relationships over experiences of the past, in a learning-based navigation approach. Therefore, the following models of machine learning will be adopted: neural convolutional netwoks, graph neural networks, recorrent neural networks and deep reinforcement learning, in a targetobject approach. This architecture has trained in several domestic ambiances, adopting a photo-realistic simulated environment. The architecture was evaluated through qualitative analysis, executing episodes of the agent in the simulated environment with visual insight, and quantitative analysis, adopting metrics like success rate and success rate weighted by path length. Policies learn by the proposed architecture were compared with agents using random policies, agents using only reinforcement learning, and, finally, agents with navigation semantic policies without memory. The experiments performed showed a more exploratory behavior of the proposed architecture when compared with the nonmemory approaches. reaching better success rates in the tasks for both metrics. When exposed to restrict scenarios, consequently being of greater difficulty, the policies learn by such models demonstrated better results, with a lower decrease in its performance when compared with less restrictive executions and other models. Thus, the proposed model presented consistent results with better policies learn by the agents, resulting in behaviors more successful in the task of target-object search in indoor-home environments.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

IuryBatistadeAndradeSantos_revisada.pdf (58.05 Mbytes)

Fecha de Publicación

2020-12-16

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.