Tese de Doutorado
Documento
Tese de Doutorado
Autor
Nome completo
Lucas de Oliveira Lyra
E-mail
Unidade da USP
Instituto de Matemática e Estatística
Programa ou Especialidade
Data de Defesa
2024-08-23
Imprenta
São Paulo, 2024
Orientador
Florindo, João Batista - (Coorientador)
(
)
Banca examinadora
Fabris, Antonio Elias (Presidente)
Bruno, Odemir Martinez
Hirata, Nina Sumiko Tomita
Mesquita, Marcos Eduardo Ribeiro do Valle
Metze, Konradin
Título em inglês
Image classification with Fisher Vectors computed with multilevel features extracted from deep filter banks
Palavras-chave em inglês
Convolutional Neural Networks, Fisher Vectors, Medical image classification, Texture recognition, Visual transformers
Resumo em inglês
In this thesis, we investigate the use of Fisher Vector (FV) for encoding multilevel features extracted from deep neural networks in image classification. Specifically, we employ Convolutional Neural Networks (CNNs) and hybrid CNN + Visual Transformer (ViT) models for feature extraction. While CNNs are effective at extracting generalist features, they exhibit a locality bias, which we address using hybrid architectures. The FV encoding method tackles issues related to order-sensitive encoders, such as Fully-Connected layers, in visual texture recognition and related fields (e.g., medical image classification). Our results demonstrate that the proposed approach significantly improves CNN accuracy in visual texture recognition. Despite its usefulness in the context of limited data availability, scalability to larger datasets remains a challenge. To mitigate this, we propose a method for reducing the computational costs of FV encoding. We rigorously evaluate the robustness of this method and apply it to larger datasets within the context of medical image classification. Additionally, we explore the impact of fine-tuning on the models performance. Finally, our approach proves suitable for both small and large datasets, exhibiting competitiveness compared to existing literature.
Título em português
Classificação de imagens com Vetores de Fisher calculados com descritores de vários níveis de bancos de filtros profundos
Palavras-chave em português
Classificação de imagens médicas, Reconhecimento de textura, Redes Neurais Convolucionais, Transformadores visuais, Vetores de Fisher
Resumo em português
Nesta tese, investigamos o uso de Vetores de Fisher (FV) para codificar descritores de vários níveis extraídos de redes neurais profundas na classificação de imagens. Mais especificamente, empregamos Redes Neurais Convolucionais (CNNs) e modelos híbridos CNN + Transformador Visual (ViT) para extração de descritores. Embora as CNNs sejam eficazes na extração de descritores generalistas, elas apresentam um viés de localidade, o qual endereçamos usando arquiteturas híbridas. A codificação por FV busca resolver problemas relacionados a codificadores sensíveis à ordem, como camadas totalmente conectadas, no reconhecimento de texturas visuais e campos relacionados (por exemplo, classificação de imagens médicas). Nossos resultados demonstram que a abordagem proposta melhora significativamente a precisão das CNNs no reconhecimento de texturas visuais. Apesar de sua utilidade no contexto de disponibilidade limitada de dados, a escalabilidade para conjuntos de dados maiores ainda é um desafio. Para mitigar isso, propomos um método para reduzir os custos computacionais da codificação por FV. Avaliamos rigorosamente a robustez desse método e o aplicamos a conjuntos de dados maiores no contexto da classificação de imagens médicas. Além disso, exploramos o impacto do ajuste fino no desempenho do modelo. Finalmente, nossa abordagem se mostra adequada para conjuntos de dados pequenos e grandes, demonstrando competitividade quando comparada à literatura existente.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2025-06-18
Trabalhos decorrentes
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.