• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2022.tde-25072022-165116
Documento
Autor
Nome completo
Rayner Harold Montes Condori
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2022
Orientador
Banca examinadora
Bruno, Odemir Martinez (Presidente)
Manzanera, Antoine
Oliveira Junior, Osvaldo Novais de
Pedrini, Hélio
Título em inglês
Multi-layer analysis of convolutional neural networks for transfer learning applications
Palavras-chave em inglês
Activation maps
Computer vision
Convolutional neural networks
Image classification
Object detection
Transfer learning
Resumo em inglês
Deep learning has become a hot topic in artificial intelligence due to its ability to model complex concepts from simple ones. In this regard, the convolutional neural network (CNN) is one of the most popular kinds of neural networks currently used in computer vision and related areas. In general, the following factors contributed to its popularity. (i) With enough data, most CNNs can be trained from scratch and learn powerful representations that solve the task at stake. (ii) On the other hand, with a limited volume of data, it is possible to also learn powerful representations by adapting the knowledge of a pre-trained CNN model via a transfer learning strategy. As a result, CNNs have advanced the state-of-the-art in many visual recognition tasks, leading to numerous applications in various fields outside of computer science, such as medicine and biology. Nevertheless, many of the best research efforts are focused on improving the state-of-the-art on a few datasets, such as ImageNet for image classification and COCO for object detection. On the other hand, research progress in many other domains is reduced to blindly applying existing approaches or re-inventing everything from scratch, resulting in the development of flawed methods in both cases. Therefore, this thesis focuses on understanding through systematic experiments why and when a pre-trained CNN model underperforms on a given task, to propose suitable solutions. In the first part of our study, we examined the task of texture recognition and discovered that all previous studies tended to focus exclusively on category-based texture datasets, leading to the misconception that only the deepest layers had the texture information needed to solve that task. We then show, by proposing multilayer transfer learning strategies, that the contribution of shallow layers is not trivial and should be used in certain applications. In the second part of our study, we focus on challenging object detection tasks (pollen grain detection and stomata localization), where we observe a situation similar to that of texture recognition. Therefore, in both cases, we also applied multilayer analysis to propose fast single-stage detectors that can handle large images accurately and efficiently.
Título em português
Análise multicamada de redes neurais convolucionais para aplicações de transferência de conhecimento
Palavras-chave em português
Classificação de imagens
Detecção de objetos
Mapas de ativação
Redes neurais convolucionais
Transferência de conhecimento
Visão por computador
Resumo em português
O aprendizado profundo tornou-se um tema quente na inteligência artificial devido à sua capacidade de modelar conceitos complexos a partir de conceitos simples. Nesse sentido, a rede neural convolucional (CNN) é um dos tipos mais populares de redes neurais atualmente utilizadas em visão computacional e áreas afins. Em geral, os seguintes fatores contribuíram para sua popularidade. (i) Com dados suficientes, a maioria das CNNs podem ser treinadas do zero e aprender representações poderosas que resolvem a tarefa em jogo. (ii) Por outro lado, com um volume limitado de dados, é possível também aprender representações poderosas adaptando o conhecimento de um modelo CNN pré-treinado por meio de uma estratégia de aprendizagem por transferência. Como resultado, as CNNs avançaram o estado da arte em muitas tarefas de reconhecimento visual, levando a inúmeras aplicações em vários campos fora da ciência da computação, como medicina e biologia. No entanto, muitos dos melhores esforços de pesquisa estão focados em melhorar o estado da arte só em alguns conjuntos de dados, como ImageNet para classificação de imagens e COCO para detecção de objetos. Porém, o progresso da pesquisa em muitos outros domínios é reduzido a aplicar cegamente as abordagens existentes ou reinventar tudo do zero, resultando no desenvolvimento de métodos falhos em ambos os casos. Portanto, esta tese se foca em entender por meio de experimentos sistemáticos por que e quando um modelo CNN pré-treinado apresenta desempenho inferior em uma determinada tarefa, a fim de propor soluções adequadas. Na primeira parte de nosso estudo, examinamos a tarefa de reconhecimento de textura e descobrimos que todos os trabalhos anteriores tendiam a se concentrar exclusivamente em conjuntos de dados de textura baseados em categorias, levando à ideia equívoca de que apenas as camadas mais profundas tinham as informações de textura necessárias para resolver essa tarefa. . Mostramos então, propondo estratégias de aprendizagem por transferência multicamadas, que a contribuição de camadas rasas não é trivial e deve ser utilizada em determinadas aplicações. Na segunda parte do nosso estudo, focamos em tarefas desafiadoras de detecção de objetos (detecção de grãos de pólen e localização de estômatos), onde observamos uma situação semelhante à do reconhecimento de texturas. Portanto, em ambos os casos, também aplicamos a análise multicamada para propor detectores rápidos de estágio único que podem lidar com imagens muito grandes com precisão e eficiência.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-07-25
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.