A deep learning approach to visual servo control and grasp detection for autonomous robotic manipulation

Ribeiro, Eduardo Godinho

doi:10.11606/D.18.2020.tde-25092020-134758

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.18.2020.tde-25092020-134758

Documento

Disertación de Maestría

Autor

Ribeiro, Eduardo Godinho (Catálogo USP)

Nombre completo

Eduardo Godinho Ribeiro

Instituto/Escuela/Facultad

Escola de Engenharia de São Carlos

Área de Conocimiento

Sistemas Dinámicos

Fecha de Defensa

2020-04-16

Publicación

São Carlos, 2020

Director

Grassi Junior, Valdir (Catálogo USP)

Tribunal

Grassi Junior, Valdir (Presidente)
Caurin, Glauco Augusto de Paula
Chaimowicz, Luiz

Título en inglés

A deep learning approach to visual servo control and grasp detection for autonomous robotic manipulation

Palabras clave en inglés

Deep learning
Robotic grasping
Visual servoing

Resumen en inglés

The development of the robotics and artificial intelligence fields has not yet allowed robots to execute, with dexterity, simple actions performed by humans. One of them is the grasping of objects by robotic manipulators. Aiming to explore the use of deep learning algorithms, specifically Convolutional Neural Networks, to approach the robotic grasping problem, this work addresses the visual perception phase involved in the task. That is, the processing of visual data to obtain the location of the object to be grasped, its pose and the points at which the robot's grippers must make contact to ensure a stable grasp. For this, the dataset Cornell Grasping is used to train a convolutional neural network capable of considering these three stages simultaneously. In other words, having an image of the robot's workspace, containing a certain object, the network predicts a grasp rectangle that symbolizes the position, orientation and opening of the robot's parallel grippers in the instant before its closing. In addition to this network, capable of processing images in real-time, another network is designed so that it is possible to deal with situations in which the object moves in the environment. In this way, the second convolutional network is trained to perform a visual servo control which ensures that the object remains in the robot's field of view. This network predicts the proportional values of the linear and angular velocities that the camera must have so that the object is always in the image processed by the grasp network. The dataset used for training was generated, with reduced human supervision, by a Kinova Gen3 robotic manipulator with seven degrees of freedom. The robot is also used to evaluate the applicability in real-time and obtain practical results from the designed algorithms. In addition, the offline results obtained through validation sets are also analyzed and discussed taking into account their efficiency and processing speed. The results for grasping exceed 90% accuracy with state-of-the-art prediction speed. Regarding visual servoing, one of the designed models achieves millimeter positioning accuracy for a first-seen object. In a small evaluation, the complete system performed successful tracking and grasping of first-seen dynamic objects in 85% of attempts. So, this work presents a new system for autonomous robotic manipulation, able to generalize to different objects and with high processing speed, which allows its application in real-time and real-world robotic systems.

Título en portugués

Uma abordagem baseada em aprendizagem profunda para controle servo-visual e detecção de pontos de preensão para manipulação robótica autônoma

Palabras clave en portugués

Aprendizagem profunda
Controle servo-visual
Preensão robótica

Resumen en portugués

A evolução dos campos da Robótica e da Inteligência Artificial ainda não possibilitou que tarefas simples executadas pelo ser humano, sejam executadas com destreza por um robô. Uma delas é a manipulação de objetos por manipuladores robóticos. Visando explorar o uso de algoritmos de aprendizagem profunda, especificamente Redes Neurais Convolucionais, para abordar o problema de preensão robótica, este trabalho explora a fase de percepção visual envolvida na tarefa. Isto é, o processamento de dados visuais para que se possa obter a localização do objeto a ser pego, sua postura e os pontos nos quais as garras do robô devem fazer contato para garantir uma preensão estável. Para tal, o conjunto de dados Cornell Grasping foi utilizado para treinar uma rede neural convolucional capaz de considerar estas três etapas de forma simultânea. Ou seja, de posse de uma imagem do ambiente de trabalho do robô, contendo determinado objeto, a rede prediz um retângulo de preensão que simboliza a posição, orientação e abertura da garra paralela do robô no instante anterior ao seu fechamento. Em adição a esta rede, capaz de processar as imagens em tempo real, outra rede foi projetada para que seja possível lidar com situações em que o objeto se movimenta no ambiente. Desta forma, a segunda rede convolucional é treinada para realizar um controle servo-visual que assegura a permanência do objeto no campo de visão do robô. Esta rede prediz os valores proporcionais das velocidades linear e angular que a câmera deve possuir para que o objeto sempre esteja na imagem processada pela rede de preensão. O conjunto de dados utilizado para treinamento foi gerado, com reduzida supervisão humana, por um robô manipulador Kinova Gen3 com sete graus de liberdade. O robô também foi utilizado para avaliar a aplicabilidade em tempo real e obtenção de resultados práticos dos algoritmos projetados. Os resultados de preensão alcançam 90% de precisão com alta velocidade de processamento. Um dos modelos projetados para controle servo-visual alcança precisão milimétrica de posicionamento para um objeto visto pela primeira vez. Em uma pequena avaliação, o sistema completo executou o rastreamento e a preensão de objetos dinâmicos vistos pela primeira vez em 85% das tentativas. Assim, este trabalho apresenta um novo sistema de manipulação robótica autônoma, capaz de generalizar para diferentes objetos e com alta velocidade de processamento, o que permite sua aplicação em sistemas robóticos de tempo real.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

DissertRibeiroEduardoGodinhoRev.pdf (13.04 Mbytes)

Fecha de Publicación

2021-06-25

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.