Image classification with Fisher Vectors computed with multilevel features extracted from deep filter banks

Lyra, Lucas de Oliveira

doi:10.11606/T.45.2024.tde-18062025-191437

Tese de Doutorado

DOI

10.11606/T.45.2024.tde-18062025-191437

Documento

Tese de Doutorado

Autor

Lyra, Lucas de Oliveira ( )

Nome completo

Lucas de Oliveira Lyra

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Programa ou Especialidade

Matemática Aplicada

Data de Defesa

2024-08-23

Imprenta

São Paulo, 2024

Orientador

Fabris, Antonio Elias ( )

Florindo, João Batista - (Coorientador) ( )

Banca examinadora

Fabris, Antonio Elias (Presidente)

Bruno, Odemir Martinez

Hirata, Nina Sumiko Tomita

Mesquita, Marcos Eduardo Ribeiro do Valle

Metze, Konradin

Título em inglês

Image classification with Fisher Vectors computed with multilevel features extracted from deep filter banks

Palavras-chave em inglês

Convolutional Neural Networks, Fisher Vectors, Medical image classification, Texture recognition, Visual transformers

Resumo em inglês

In this thesis, we investigate the use of Fisher Vector (FV) for encoding multilevel features extracted from deep neural networks in image classification. Specifically, we employ Convolutional Neural Networks (CNNs) and hybrid CNN + Visual Transformer (ViT) models for feature extraction. While CNNs are effective at extracting generalist features, they exhibit a locality bias, which we address using hybrid architectures. The FV encoding method tackles issues related to order-sensitive encoders, such as Fully-Connected layers, in visual texture recognition and related fields (e.g., medical image classification). Our results demonstrate that the proposed approach significantly improves CNN accuracy in visual texture recognition. Despite its usefulness in the context of limited data availability, scalability to larger datasets remains a challenge. To mitigate this, we propose a method for reducing the computational costs of FV encoding. We rigorously evaluate the robustness of this method and apply it to larger datasets within the context of medical image classification. Additionally, we explore the impact of fine-tuning on the models performance. Finally, our approach proves suitable for both small and large datasets, exhibiting competitiveness compared to existing literature.

Título em português

Classificação de imagens com Vetores de Fisher calculados com descritores de vários níveis de bancos de filtros profundos

Palavras-chave em português

Classificação de imagens médicas, Reconhecimento de textura, Redes Neurais Convolucionais, Transformadores visuais, Vetores de Fisher

Resumo em português

Nesta tese, investigamos o uso de Vetores de Fisher (FV) para codificar descritores de vários níveis extraídos de redes neurais profundas na classificação de imagens. Mais especificamente, empregamos Redes Neurais Convolucionais (CNNs) e modelos híbridos CNN + Transformador Visual (ViT) para extração de descritores. Embora as CNNs sejam eficazes na extração de descritores generalistas, elas apresentam um viés de localidade, o qual endereçamos usando arquiteturas híbridas. A codificação por FV busca resolver problemas relacionados a codificadores sensíveis à ordem, como camadas totalmente conectadas, no reconhecimento de texturas visuais e campos relacionados (por exemplo, classificação de imagens médicas). Nossos resultados demonstram que a abordagem proposta melhora significativamente a precisão das CNNs no reconhecimento de texturas visuais. Apesar de sua utilidade no contexto de disponibilidade limitada de dados, a escalabilidade para conjuntos de dados maiores ainda é um desafio. Para mitigar isso, propomos um método para reduzir os custos computacionais da codificação por FV. Avaliamos rigorosamente a robustez desse método e o aplicamos a conjuntos de dados maiores no contexto da classificação de imagens médicas. Além disso, exploramos o impacto do ajuste fino no desempenho do modelo. Finalmente, nossa abordagem se mostra adequada para conjuntos de dados pequenos e grandes, demonstrando competitividade quando comparada à literatura existente.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

tese_corrigida.pdf

Data de Publicação

2025-06-18

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.