Compressão de modelos em transferência de aprendizado de máquina

Moraes, Paula Kintschev Santana de

doi:10.11606/D.45.2021.tde-09022022-083513

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.45.2021.tde-09022022-083513

Documento

Dissertação de Mestrado

Autor

Moraes, Paula Kintschev Santana de (Catálogo USP)

Nome completo

Paula Kintschev Santana de Moraes

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Ciência da Computação

Data de Defesa

2021-12-14

Imprenta

São Paulo, 2021

Orientador

Barros, Leliane Nunes de (Catálogo USP)

Banca examinadora

Barros, Leliane Nunes de (Presidente)
Oliveira, Patrícia Rufino
Zuben, Fernando José von

Título em português

Compressão de modelos em transferência de aprendizado de máquina

Palavras-chave em português

Aprendizado profundo
Poda de parâmetros
Transferência de aprendizado

Resumo em português

O principal sucesso de aprendizado de máquina profundo está na extração automática de características dos dados, sem a necessidade de um especialista no domínio. Porém, a qualidade desta extração automática está condicionada a uma grande quantidade de dados. Em vista disso, houve uma popularização do uso de transferência de aprendizado (transfer learning) em que redes neurais treinadas em um domínio com muitos dados são transferidas e adaptadas a domínios similares necessitando assim de poucos dados. Essa técnica é amplamente utilizada em tarefas de classificação de imagens, nas quais uma rede neural convolucional (CNN), previamente treinada para uma tarefa origem, tem parte de suas camadas transferidas para uma rede similar e adaptada a uma nova tarefa meta com o uso de poucos dados de treinamento. No entanto, o sucesso das soluções que utilizam transferência de aprendizado depende da complexidade das camadas transferidas: adaptar uma rede com muitos parâmetros para a nova tarefa pode implicar em um alto custo computacional. Para mitigar este problema, investigamos o uso de uma técnica de compressão de modelos conhecida por poda de parâmetros (model prunning) que define diferentes critérios de eliminação de parâmetros de uma rede neural previamente treinada, gerando uma rede mais compacta sem afetar significativamente sua acurácia. Assim, o objetivo deste trabalho é investigar a viabilidade de podar um modelo treinado para uma tarefa origem antes de transferi-lo para outras tarefas meta. Para isso, utilizamos o arcabouço chamado de prune2transfer, que seleciona a melhor poda de parâmetros antes da transferência de aprendizado. Foram realizados experimentos de transferência de aprendizado com a rede VGG-19 para 22 novas tarefas meta usando poda não-estruturada baseada em magnitude e poda estruturada baseada na norma-L1. Também foram realizados experimentos usando um algoritmo de aprendizado por reforço (DQN) para poda estruturada e não-estruturada. Os resultados mostram que, com o uso de um agente de aprendizado por reforço aplicando uma poda não- estruturada, é possível eliminar cerca de 93% dos parâmetros da rede VGG-19 sem afetar sua capacidade de extração de características na tarefa original e nas 22 tarefas investigadas.

Título em inglês

Model compression in transfer learning

Palavras-chave em inglês

Deep learning
Model pruning
Transfer learning

Resumo em inglês

The great success of deep learning relies on its automatic feature extraction capabilities, that is, without domain expert knowledge, directly from the data. The quality of this feature extraction is conditioned to large amounts of data, which can be unfeasible for learning tasks with small datasets. Transfer learning is a technique that overpasses the supervised learning assumption, extracting knowledge from a model trained in a domain with large amounts of data to a similar domain with fewer data helping to achieve greater performance. This technique is widely used in image classification tasks where some layers of a pre-trained convolutional neural network (CNN) are transferred and adapted to a new task. Although it is popular, learning tasks that use pre-trained models rely on deep models to process each new data, which increases the computational cost of the solution. To mitigate this problem, we investigate model pruning which is a compression technique that reduces complexity by eliminating network parameters without deteriorating the models performance. Generally pruning is conducted on a model trained for a specific task, however, for pre-trained models used in transfer learning tasks, it would be best to transfer an already reduced model rather than pruning it for each new task. Therefore, the goal of this work is to assess the viability of pruning a model before it is transferred to other tasks and to compare different methods of model pruning for this process. We propose the framework prune2transfer that evaluates the best pruning ratio before transfer. We conducted transfer learning experiments with VGG-19 for 22 target tasks applying unstructured and structured pruning algorithms on the source task. We also investigated pruning techniques that are based on a deep reinforcement learning algorithm (DQN). Our results show that a reinforcement learning agent using unstructured pruning can eliminate close to 93% of the parameters of VGG-19 without damaging its feature extractors.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

dissertacao_paula_moraes_corrigida.pdf (2.97 Mbytes)

Data de Publicação

2022-02-11

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.