A deep learning approach to visual servo control and grasp detection for autonomous robotic manipulation

Ribeiro, Eduardo Godinho

doi:10.11606/D.18.2020.tde-25092020-134758

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.18.2020.tde-25092020-134758

Document

Mémoire de Maîtrise

Auteur

Ribeiro, Eduardo Godinho (Catálogo USP)

Nom complet

Eduardo Godinho Ribeiro

Unité de l'USP

Escola de Engenharia de São Carlos

Domain de Connaissance

Systèmes Dynamiques

Date de Soutenance

2020-04-16

Editeur

São Carlos, 2020

Directeur

Grassi Junior, Valdir (Catálogo USP)

Jury

Grassi Junior, Valdir (Président)
Caurin, Glauco Augusto de Paula
Chaimowicz, Luiz

Titre en anglais

A deep learning approach to visual servo control and grasp detection for autonomous robotic manipulation

Mots-clés en anglais

Deep learning
Robotic grasping
Visual servoing

Resumé en anglais

The development of the robotics and artificial intelligence fields has not yet allowed robots to execute, with dexterity, simple actions performed by humans. One of them is the grasping of objects by robotic manipulators. Aiming to explore the use of deep learning algorithms, specifically Convolutional Neural Networks, to approach the robotic grasping problem, this work addresses the visual perception phase involved in the task. That is, the processing of visual data to obtain the location of the object to be grasped, its pose and the points at which the robot's grippers must make contact to ensure a stable grasp. For this, the dataset Cornell Grasping is used to train a convolutional neural network capable of considering these three stages simultaneously. In other words, having an image of the robot's workspace, containing a certain object, the network predicts a grasp rectangle that symbolizes the position, orientation and opening of the robot's parallel grippers in the instant before its closing. In addition to this network, capable of processing images in real-time, another network is designed so that it is possible to deal with situations in which the object moves in the environment. In this way, the second convolutional network is trained to perform a visual servo control which ensures that the object remains in the robot's field of view. This network predicts the proportional values of the linear and angular velocities that the camera must have so that the object is always in the image processed by the grasp network. The dataset used for training was generated, with reduced human supervision, by a Kinova Gen3 robotic manipulator with seven degrees of freedom. The robot is also used to evaluate the applicability in real-time and obtain practical results from the designed algorithms. In addition, the offline results obtained through validation sets are also analyzed and discussed taking into account their efficiency and processing speed. The results for grasping exceed 90% accuracy with state-of-the-art prediction speed. Regarding visual servoing, one of the designed models achieves millimeter positioning accuracy for a first-seen object. In a small evaluation, the complete system performed successful tracking and grasping of first-seen dynamic objects in 85% of attempts. So, this work presents a new system for autonomous robotic manipulation, able to generalize to different objects and with high processing speed, which allows its application in real-time and real-world robotic systems.

Titre en portugais

Uma abordagem baseada em aprendizagem profunda para controle servo-visual e detecção de pontos de preensão para manipulação robótica autônoma

Mots-clés en portugais

Aprendizagem profunda
Controle servo-visual
Preensão robótica

Resumé en portugais

A evolução dos campos da Robótica e da Inteligência Artificial ainda não possibilitou que tarefas simples executadas pelo ser humano, sejam executadas com destreza por um robô. Uma delas é a manipulação de objetos por manipuladores robóticos. Visando explorar o uso de algoritmos de aprendizagem profunda, especificamente Redes Neurais Convolucionais, para abordar o problema de preensão robótica, este trabalho explora a fase de percepção visual envolvida na tarefa. Isto é, o processamento de dados visuais para que se possa obter a localização do objeto a ser pego, sua postura e os pontos nos quais as garras do robô devem fazer contato para garantir uma preensão estável. Para tal, o conjunto de dados Cornell Grasping foi utilizado para treinar uma rede neural convolucional capaz de considerar estas três etapas de forma simultânea. Ou seja, de posse de uma imagem do ambiente de trabalho do robô, contendo determinado objeto, a rede prediz um retângulo de preensão que simboliza a posição, orientação e abertura da garra paralela do robô no instante anterior ao seu fechamento. Em adição a esta rede, capaz de processar as imagens em tempo real, outra rede foi projetada para que seja possível lidar com situações em que o objeto se movimenta no ambiente. Desta forma, a segunda rede convolucional é treinada para realizar um controle servo-visual que assegura a permanência do objeto no campo de visão do robô. Esta rede prediz os valores proporcionais das velocidades linear e angular que a câmera deve possuir para que o objeto sempre esteja na imagem processada pela rede de preensão. O conjunto de dados utilizado para treinamento foi gerado, com reduzida supervisão humana, por um robô manipulador Kinova Gen3 com sete graus de liberdade. O robô também foi utilizado para avaliar a aplicabilidade em tempo real e obtenção de resultados práticos dos algoritmos projetados. Os resultados de preensão alcançam 90% de precisão com alta velocidade de processamento. Um dos modelos projetados para controle servo-visual alcança precisão milimétrica de posicionamento para um objeto visto pela primeira vez. Em uma pequena avaliação, o sistema completo executou o rastreamento e a preensão de objetos dinâmicos vistos pela primeira vez em 85% das tentativas. Assim, este trabalho apresenta um novo sistema de manipulação robótica autônoma, capaz de generalizar para diferentes objetos e com alta velocidade de processamento, o que permite sua aplicação em sistemas robóticos de tempo real.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

DissertRibeiroEduardoGodinhoRev.pdf (13.04 Mbytes)

Date de Publication

2021-06-25

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.