Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet

Almeida, Pedro Henrique Barbosa de

doi:10.11606/D.45.2025.tde-09022026-231446

Dissertação de Mestrado

DOI

10.11606/D.45.2025.tde-09022026-231446

Documento

Dissertação de Mestrado

Autor

Almeida, Pedro Henrique Barbosa de ( )

Nome completo

Pedro Henrique Barbosa de Almeida

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Programa ou Especialidade

Ciência da Computação

Data de Defesa

2025-12-12

Imprenta

São Paulo, 2025

Orientador

Hirata, Nina Sumiko Tomita ( )

Banca examinadora

Hirata, Nina Sumiko Tomita (Presidente)

Almeida Junior, Jurandy Gomes de

Oliveira, Hugo Neves de

Título em inglês

Efficiently segmenting images with Vision Transformers: a case study on Swin-UNet

Palavras-chave em inglês

Segmentation, Spatial Reduction Attention, Vision Transformers

Resumo em inglês

Convolution-based models iteratively process local regions of an image, demonstrating a high capacity for extracting short-range spatial features. In contrast, models based on attention mechanisms perform global operations, capable of encoding long-range relationships between input elements. In this context, architectures derived from Vision Transformers (ViTs) have demonstrated superior performance on higher-dimensional images. However, such models have a large number of parameters, which implies higher computational costs in terms of training time and memory usage. This work investigates optimization strategies for training the SwinUNet architecture, based on ViTs, considering the effects of pre-training, the amount of available data, and model dimensionality reduction. Structural modifications to the network were evaluated, as well as the introduction of the Spatial Reduction Attention mechanism, aimed at reducing the number of operations required for inference. The combination of these optimizations resulted in a lighter version of the architecture, characterized by fewer parameters, shorter inference time, and performance comparable to the original model, which, in turn, outperforms strictly convolutional architectures.

Título em português

Segmentando imagens eficientemente com Transformers de visão: um estudo de caso sobre a Swin-UNet

Palavras-chave em português

Atenção com redução espacial, Segmentação, Transformers de visão

Resumo em português

Modelos baseados em convolução processam regiões locais de uma imagem de forma iterativa, apresentando elevada capacidade de extração de características espaciais de curta distância. Em contrapartida, modelos baseados em mecanismos de atenção realizam operações de natureza global, sendo capazes de codificar relações de longo alcance entre os elementos da entrada. Nesse contexto, arquiteturas derivadas de Vision Transformers (ViT) têm demonstrado desempenho superior em imagens de maior dimensão. Contudo, tais modelos apresentam elevado número de parâmetros, o que implica maior custo computacional em termos de tempo de treinamento e uso de memória. Este trabalho investiga estratégias de otimização para o treinamento da arquitetura SwinUNet, baseada em ViTs, considerando os efeitos do pré-treinamento, da quantidade de dados disponíveis e da redução da dimensionalidade do modelo. Foram avaliadas modificações estruturais na rede, bem como a introdução do mecanismo Spatial Reduction Attention, voltado à diminuição do número de operações necessárias por inferência. A combinação dessas otimizações resultou em uma versão mais leve da arquitetura, caracterizada por menor número de parâmetros, menor tempo de inferência e desempenho comparável ao modelo original, o qual, por sua vez, supera arquiteturas estritamente convolucionais.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

tese.pdf

Data de Publicação

2026-02-10

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.