Método para execução de redes neurais convolucionais em FPGA.

Sousa, Mark Cappello Ferreira de

doi:10.11606/D.3.2019.tde-14082019-110912

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.3.2019.tde-14082019-110912

Documento

Dissertação de Mestrado

Autor

Sousa, Mark Cappello Ferreira de (Catálogo USP)

Nome completo

Mark Cappello Ferreira de Sousa

E-mail

Unidade da USP

Escola Politécnica

Área do Conhecimento

Microeletrônica

Data de Defesa

2019-04-26

Imprenta

São Paulo, 2019

Orientador

Hernandez, Emílio Del Moral (Catálogo USP)

Banca examinadora

Hernandez, Emílio Del Moral (Presidente)
Giorno, Fernando Antonio de Castro
Pumarica, Julio César Saldaña

Título em português

Método para execução de redes neurais convolucionais em FPGA.

Palavras-chave em português

AlexNet
FPGA
Reconhecimento de imagem
Reconhecimento embarcado de padrões
Redes neurais
Sistema-em-um-chip

Resumo em português

Redes Neurais Convolucionais têm sido utilizadas com sucesso para reconhecimento de padrões em imagens. Porém, o seu alto custo computacional e a grande quantidade de parâmetros envolvidos dificultam a execução em tempo real deste tipo de rede neural artificial em aplicações embarcadas, onde o poder de processamento e a capacidade de armazenamento de dados são restritos. Este trabalho estudou e desenvolveu um método para execução em tempo real em FPGAs de uma Rede Neural Convolucional treinada, aproveitando o poder de processamento paralelo deste tipo de dispositivo. O foco deste trabalho consistiu na execução das camadas convolucionais, pois estas camadas podem contribuir com até 99% da carga computacional de toda a rede. Nos experimentos, um dispositivo FPGA foi utilizado conjugado com um processador ARM dual-core em um mesmo substrato de silício. Apenas o dispositivo FPGA foi utilizado para executar as camadas convolucionais da Rede Neural Convolucional AlexNet. O método estudado neste trabalho foca na distribuição eficiente dos recursos do FPGA por meio do balanceamento do pipeline formado pelas camadas convolucionais, uso de buffers para redução e reutilização de memória para armazenamento dos dados intermediários (gerados e consumidos pelas camadas convolucionais) e uso de precisão numérica de 8 bits para armazenamento dos kernels e aumento da vazão de leitura dos mesmos. Com o método desenvolvido, foi possível executar todas as cinco camadas convolucionais da AlexNet em 3,9 ms, com a frequência máxima de operação de 76,9 MHz. Também foi possível armazenar todos os parâmetros das camadas convolucionais na memória interna do FPGA, eliminando possíveis gargalos de acesso à memória externa.

Título em inglês

A method for execution of convolutional neural networks in FPGA.

Palavras-chave em inglês

AlexNet
Convolutional neural networks
Embedded pattern recognition
FPGA
Image recognition
System-on-chip

Resumo em inglês

Convolutional Neural Networks have been used successfully for pattern recognition in images. However, their high computational cost and the large number of parameters involved make it difficult to perform this type of artificial neural network in real time in embedded applications, where the processing power and the data storage capacity are restricted. This work studied and developed methods for real-time execution in FPGAs of a trained convolutional neural network, taking advantage of the parallel processing power of this type of device. The focus of this work was the execution of convolutional layers, since these layers can contribute up to 99% of the computational load of the entire network. In the experiments, an FPGA device was used in conjunction with a dual-core ARM processor on the same silicon substrate. The FPGA was used to perform convolutional layers of the AlexNet Convolutional Neural Network. The methods studied in this work focus on the efficient distribution of the FPGA resources through the balancing of the pipeline formed by the convolutional layers, the use of buffers for the reduction and reuse of memory for the storage of intermediate data (generated and consumed by the convolutional layers) and 8 bits for storage of the kernels and increase of the flow of reading of them. With the developed methods, it was possible to execute all five AlexNet convolutional layers in 3.9 ms with the maximum operating frequency of 76.9 MHz. It was also possible to store all the parameters of the convolutional layers in the internal memory of the FPGA, eliminating possible external access memory bottlenecks.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

MarkCappelloFerreiradeSousaCorr19.pdf (3.07 Mbytes)

Data de Publicação

2019-08-22

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.