Dissertação de Mestrado

Documento
Dissertação de Mestrado
Nome completo
Pedro Henrique Barbosa de Almeida
E-mail
Unidade da USP
Instituto de Matemática e Estatística
Programa ou Especialidade
Data de Defesa
2025-12-12
Imprenta
São Paulo, 2025
Banca examinadora
Hirata, Nina Sumiko Tomita (Presidente)
Almeida Junior, Jurandy Gomes de
Oliveira, Hugo Neves de
Título em inglês
Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet
Palavras-chave em inglês
Segmentation, Spatial Reduction Attention, Vision Transformers
Resumo em inglês
Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.
Título em português
Segmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNet
Palavras-chave em português
Atenção com redução espacial, Segmentação, Transformers de visão
Resumo em português
Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Data de Publicação
2026-02-10

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.

Serviços

Carregando...