Redes neurais de segmentação semântica de plantas daninhas usando mosaico de imagens de alta resolução espacial de um veículo aéreo não tripulado

Faria, Lilian Nogueira de

doi:10.11606/T.45.2023.tde-22012024-083633

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.45.2023.tde-22012024-083633

Documento

Tese de Doutorado

Autor

Faria, Lilian Nogueira de (Catálogo USP)

Nome completo

Lilian Nogueira de Faria

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Ciência da Computação

Data de Defesa

2023-11-21

Imprenta

São Paulo, 2023

Orientador

Hirata Junior, Roberto (Catálogo USP)

Banca examinadora

Hirata Junior, Roberto (Presidente)
Backes, André Ricardo
Cesar Junior, Roberto Marcondes
Quintanilha, Jose Alberto
Santos, Thiago Teixeira

Título em português

Redes neurais de segmentação semântica de plantas daninhas usando mosaico de imagens de alta resolução espacial de um veículo aéreo não tripulado

Palavras-chave em português

Agricultura de precisão
Aprendizado de máquina
Inteligência artificial
Rede neural convolucional
Sensoriamento remoto
Visão computacional

Resumo em português

Uma tecnologia moderna de sensoriamento remoto para mapeamento aéreo usando veículos aéreos não tripulados (VANTs), popularmente conhecidos como drones, tem conquistado cada vez mais espaço na agricultura de precisão devido à sua capacidade de obter ortomosaicos georreferenciados de campos agrícolas com alta resolução espacial, permitindo a localização e manejo de plantas daninhas durante todas as fases de desenvolvimento da cultura. Apesar dos importantes avanços nos sistemas de aquisição de VANTs e do desenvolvimento de novas técnicas de aprendizado de máquina usando redes neurais convolucionais (CNNs) em tarefas de classificação de imagens, a detecção automática de ervas daninhas continua sendo um problema desafiador devido à sua forte similaridade espectral com a cultura agrícola, uma vez que elas refletem o mesmo comprimento de onda eletromagnético captado pelos sensores. Com a disponibilidade de sensores RGB e multiespectrais que captam imagens de alta resolução espacial nos comprimentos de onda visível e infravermelho, técnicas mais modernas de aprendizado profundo (deep learning) vêm sendo aplicadas nos últimos anos para abordar o problema de segmentação semântica em aplicações de agricultura de precisão. Assim, este trabalho inclui uma revisão bibliográfica de alguns modelos de redes neurais de classificação de imagens e segmentação semântica, bem como uma análise de desempenho quantitativo e qualitativo dos mapas de previsão de nove modelos em quatro classes semânticas (solo, cultura, daninhas e gramíneas), aplicados em um domínio específico com conjuntos de dados formados por imagens e mosaicos RGB de alta resolução de um campo experimental de cultivo de cana-de-açúcar com presença de plantas daninhas. Todas as abordagens de redes de segmentação semântica baseadas em CNN diminuem a resolução espacial dos mapas de atributos de alto nível no topo da CNN e utilizam diferentes estratégias para recuperar a informação espacial para previsão semântica com a mesma dimensão da imagem de entrada. A análise dos resultados indicou que as redes que utilizam estratégias para agregar informações de contexto multiescala para segmentação de objetos de diferentes tamanhos obtêm melhores desempenhos de IoU médio em imagens com GSDs (Ground Sampling Distance) diferentes do utilizado no treinamento. Como os mosaicos de imagens de VANT apresentam variações de resolução espacial devido a variações de altura durante o voo, um novo modelo de segmentação semântica multiescala baseado em CNNs foi desenvolvido neste trabalho, levando em consideração as características dos modelos de melhor desempenho neste domínio específico, obtendo assim um desempenho relativamente superior ao das redes multiescala já existentes. Consequentemente, os mapas ortomosaicos georreferenciados, segmentados pela rede proposta, podem ser usados em sistemas de agricultura de precisão para localização das plantas daninhas em talhões de uma cultura agrícola, permitindo a pulverização automatizada de herbicidas nos locais certos nas doses necessárias, reduzindo os impactos ambientais e aumentando a produtividade agrícola.

Título em inglês

Neural networks for semantic segmentation of weeds using high spatial resolution image mosaic from an unmanned aerial vehicle

Palavras-chave em inglês

Artificial intelligence
Computer vision
Convolutional neural network
Deep learning
Machine learning
Precision agriculture
Remote sensing

Resumo em inglês

A modern remote sensing technology for aerial mapping using unmanned aerial vehicles (UAVs), popularly known as drones, has conquered more and more space in precision agriculture due to its ability to obtain georeferenced orthomosaics of agricultural fields with high spatial resolution, allowing the detection and management of weeds during all stages of crop development. Despite important advances in UAV acquisition systems and the development of new machine learning techniques using convolutional neural networks (CNNs) in image classification tasks, automatic weed detection remains a challenging problem due to their strong spectral similarity with the agricultural crop, since they reflect the same electromagnetic wavelength captured by the sensors. With the availability of RGB and multispectral sensors that capture high spatial resolution imagery in visible and infrared wavelengths, modern deep learning techniques have been applied in recent years to address the semantic segmentation problem in precision agriculture applications. Therefore, this work includes a bibliographical review of some neural network models for image classification and semantic segmentation, as well as a qualitative and quantitative performance analysis of the prediction maps of nine models in four semantic classes (soil, crop, weeds and grasses), applied in a specific domain with datasets formed by images and high-resolution RGB mosaics of an experimental sugarcane crop field with the presence of weeds. All semantic segmentation network approaches based on CNN decrease the spatial resolution of the high-level feature maps on top of the CNN and use different strategies to recover the spatial information for semantic prediction with the same dimension as the input image. The performances of these networks were compared quantitatively and qualitatively on our dataset. Analysis of the results indicated that networks that use strategies to aggregate multiscale context information to segment objects of different sizes obtain better average IoU performance in images with GSDs (Ground Sampling Distance) different from that used in training. As UAV image mosaics present variations in spatial resolution due to height variations during flight, a new multiscale semantic segmentation model based on CNNs was developed in this work, considering the characteristics of the best performing models in this specific domain, thus achieving a relatively higher performance than existing multiscale networks. Consequently, georeferenced orthomosaic maps, segmented by the proposed network, can be used in precision agriculture systems to locate weeds in fields of an agricultural crop, allowing the automated spraying of herbicides in the right locations at the necessary doses, reducing environmental impacts and increasing agricultural productivity.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

TeseFinal_LilianFaria_USP.pdf (45.32 Mbytes)

Data de Publicação

2024-01-22

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.