• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2023.tde-02062023-161527
Document
Auteur
Nom complet
Leo Sampaio Ferraz Ribeiro
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2023
Directeur
Jury
Ponti, Moacir Antonelli (Président)
Rondo, José Manuel Saavedra
Silva, Diego Furtado
Torres, Ricardo da Silva
Titre en anglais
Cross Domain Visual Search with Feature Learning using Multi-stream Transformer-based Architectures
Mots-clés en anglais
Cross-domain representation learning
Feature learning
Graph neural network
Sketch-based image retrieval
Transformer
Resumé en anglais
Within the general field of Computer Vision, the task of Cross-domain Visual Search is one of the most useful and studied and yet it is rarely seen throughout our daily lives. In this thesis we explore Cross-domain Visual Search using the specific and mature Sketch-based Image Retrieval (SBIR) task as a canvas. We draw four distinct hypothesis as to how to further the field and demonstrate their validity with each contribution. First we present a new architecture for sketch representation learning that forgoes traditional Convolutional networks in favour of the recent Transformer design, called Sketchformer. Then we explore two alternative definitions for the SBIR task that each approach the scale and generalisation necessary for implementation in the real world. For both tasks we introduce state-of-the-art models: our Scene Designer combines traditional multi-stream networks with a Graph Neural Network to learn representations for sketched scenes with multiple object; our Sketch-an-Anchor shows that it is possible to harvest general knowledge from pre-trained models for the Zero-shot SBIR task. These contributions have a direct impact on the literature of sketch-based tasks and a cascaded impact on Image Undestanding and Cross-domain representations at large.
Titre en portugais
Busca entre Domínios Visuais com Aprendizado de Características através de Arquiteturas Baseadas em Transformers
Mots-clés en portugais
Aprendizado de representações
Aprendizado de representações entre Domínios
Busca de imagens baseada em desenhos
Redes neurais em grafos
Transformer
Resumé en portugais
Dentro do campo de Visão Computacional, a tarefa de Busca Visual entre Domínios é uma das mais úteis e estudadas e ainda assim raramente experimentadas em nosso cotidiano. Nesta tese exploramos a Busca Visual entre Domínios, usando a tarefa de Busca de Imagens baseada em Desenhos (Sketch-based Image Retrieval, SBIR) como sua representante. Descrevemos quatro hipóteses distintas sobre como avançar esse campo de pesquisa e comprovamos a validade de cada uma através das contribuições explicitadas. Primeiro apresentamos uma nova arquitetura, chamada Sketchformer, para o aprendizado de representações de desenhos, que troca as redes convolucionais tradicionais pelo recente modelo Transformer. Então exploramos duas definições alternativas para a tarefa de SBIR, cada uma aproximando melhor a escala e generalização necessárias para implementação no mundo real. Para ambas tarefas introduzimos modelos do estado-da-arte: nosso Scene Designer combina tradicionais redes de múltiplos ramos com uma rede neural em grafo para aprender representações de cenas desenhadas com múltiplos objetos; nosso Sketch-an-Anchor mostra que é possível usar o conhecimento geral que existe em modelos pré-treinados para a tarefa de Zero-shot SBIR. Estas contribuições tem um impacto direto na literatura de tarefas baseadas em desenhos e um impacto em cascata para as áreas de Compreensão de Imagens e Representações Entre Domínios em geral.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-06-02
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.