Estudo de representações de imagens de múltiplos domínios a partir de aprendizado profundo não supervisionado e semi-supervisionado

Cavallari, Gabriel Biscaro

doi:10.11606/D.55.2022.tde-08082022-084706

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.55.2022.tde-08082022-084706

Documento

Dissertação de Mestrado

Autor

Cavallari, Gabriel Biscaro (Catálogo USP)

Nome completo

Gabriel Biscaro Cavallari

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2022-05-24

Imprenta

São Carlos, 2022

Orientador

Ponti, Moacir Antonelli (Catálogo USP)

Banca examinadora

Ponti, Moacir Antonelli (Presidente)
Liang, Zhao
Rocha, Anderson de Rezende
Valle Junior, Eduardo Alves do

Título em português

Estudo de representações de imagens de múltiplos domínios a partir de aprendizado profundo não supervisionado e semi-supervisionado

Palavras-chave em português

Aprendizado de características
Aprendizado não supervisionado
Aprendizado profundo
Aprendizado semisupervisionado
Auto-supervisão

Resumo em português

Sistemas atuais de visão computacional demonstram excelente desempenho em uma variedade de benchmarks, como detecção de objetos, reconhecimento e segmentação semântica de imagens. O treinamento dessas redes segue principalmente o paradigma de aprendizado supervisionado, em que são necessários muitos pares de entrada-saída para o treinamento. No entanto, grandes quantidades de dados rotulados manualmente são custosos e complexos de obter. Portanto, o aprendizado sem a necessidade de dados anotados é de grande importância para aproveitar a grande quantidade de dados visuais não rotulados geralmente disponíveis. Para enfrentar esse desafio, métodos de aprendizado não supervisionado e semi-supervisionado podem auxiliar na utilização de dados não rotulados para reduzir a dependência de grandes conjuntos de dados rotulados. Esta pesquisa tem como objetivo investigar diferentes arquiteturas e estratégias de treinamento que consideram uma situação em que se tem apenas dados não rotulados e dados rotulados limitados. Nossa hipótese é que essa estratégia melhora a generalização e a discriminação do espaço de características aprendido. Por meio de tarefas auxiliares, diferentes bases de dados e experimentos extensivos, concluímos que tanto o aprendizado semi-supervisionado quanto o auto-supervisionado seguido de ajuste fino geram representações discriminativas. Ainda, que essas representações tendem a ser mais robustas à ataques quando comparadas àquelas aprendidas em contextos puramente supervisionados.

Título em inglês

A study of image representations from multiple domains using unsupervised and semi-supervised deep learning

Palavras-chave em inglês

Deep learning
Feature learning
Self-supervision
Semi-supervised learning
Unsupervised learning

Resumo em inglês

Modern computer vision systems demonstrate outstanding performance on a variety of challenging benchmarks, such as object detection, image recognition and semantic image segmentation. Training of such networks follows mostly the supervised learning paradigm, where sufficiently many input-output pairs are required for training. However, massive amounts of manually labeled data is both expensive and impractical to scale. Therefore, learning without requiring manual annotation effort is of crucial importance in order to successfully take advantage of the vast amount of unlabeled visual data that is available today. To address this challenge, unsupervised and semi-supervised learning methods could be a powerful paradigm for leveraging unlabeled data to mitigate the reliance on large labeled datasets. This research aims to investigate different architectures and training strategies that considers both unlabeled and limited labeled data. Our hypothesis is that this strategy improves the generalization and discrimination of the learned feature space. Through auxiliary tasks, different datasets and extensive experiments, we concluded that both semi-supervised and self-supervised learning followed by fine-tuning generate discriminative representations. Furthermore, these representations tend to be more robust to attacks when compared to those learned in purely supervised context

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

GabrielBiscaroCavallari_revisada.pdf (4.48 Mbytes)

Data de Publicação

2022-08-08

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.