Doctoral Thesis
DOI
https://doi.org/10.11606/T.45.2023.tde-22012024-083633
Document
Author
Full name
Lilian Nogueira de Faria
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2023
Supervisor
Committee
Hirata Junior, Roberto (President)
Backes, André Ricardo
Cesar Junior, Roberto Marcondes
Quintanilha, Jose Alberto
Santos, Thiago Teixeira
Title in Portuguese
Redes neurais de segmentação semântica de plantas daninhas usando mosaico de imagens de alta resolução espacial de um veículo aéreo não tripulado
Keywords in Portuguese
Agricultura de precisão
Aprendizado de máquina
Inteligência artificial
Rede neural convolucional
Sensoriamento remoto
Visão computacional
Abstract in Portuguese
Uma tecnologia moderna de sensoriamento remoto para mapeamento aéreo usando veículos aéreos não tripulados (VANTs), popularmente conhecidos como drones, tem conquistado cada vez mais espaço na agricultura de precisão devido à sua capacidade de obter ortomosaicos georreferenciados de campos agrícolas com alta resolução espacial, permitindo a localização e manejo de plantas daninhas durante todas as fases de desenvolvimento da cultura. Apesar dos importantes avanços nos sistemas de aquisição de VANTs e do desenvolvimento de novas técnicas de aprendizado de máquina usando redes neurais convolucionais (CNNs) em tarefas de classificação de imagens, a detecção automática de ervas daninhas continua sendo um problema desafiador devido à sua forte similaridade espectral com a cultura agrícola, uma vez que elas refletem o mesmo comprimento de onda eletromagnético captado pelos sensores. Com a disponibilidade de sensores RGB e multiespectrais que captam imagens de alta resolução espacial nos comprimentos de onda visível e infravermelho, técnicas mais modernas de aprendizado profundo (deep learning) vêm sendo aplicadas nos últimos anos para abordar o problema de segmentação semântica em aplicações de agricultura de precisão. Assim, este trabalho inclui uma revisão bibliográfica de alguns modelos de redes neurais de classificação de imagens e segmentação semântica, bem como uma análise de desempenho quantitativo e qualitativo dos mapas de previsão de nove modelos em quatro classes semânticas (solo, cultura, daninhas e gramíneas), aplicados em um domínio específico com conjuntos de dados formados por imagens e mosaicos RGB de alta resolução de um campo experimental de cultivo de cana-de-açúcar com presença de plantas daninhas. Todas as abordagens de redes de segmentação semântica baseadas em CNN diminuem a resolução espacial dos mapas de atributos de alto nível no topo da CNN e utilizam diferentes estratégias para recuperar a informação espacial para previsão semântica com a mesma dimensão da imagem de entrada. A análise dos resultados indicou que as redes que utilizam estratégias para agregar informações de contexto multiescala para segmentação de objetos de diferentes tamanhos obtêm melhores desempenhos de IoU médio em imagens com GSDs (Ground Sampling Distance) diferentes do utilizado no treinamento. Como os mosaicos de imagens de VANT apresentam variações de resolução espacial devido a variações de altura durante o voo, um novo modelo de segmentação semântica multiescala baseado em CNNs foi desenvolvido neste trabalho, levando em consideração as características dos modelos de melhor desempenho neste domínio específico, obtendo assim um desempenho relativamente superior ao das redes multiescala já existentes. Consequentemente, os mapas ortomosaicos georreferenciados, segmentados pela rede proposta, podem ser usados em sistemas de agricultura de precisão para localização das plantas daninhas em talhões de uma cultura agrícola, permitindo a pulverização automatizada de herbicidas nos locais certos nas doses necessárias, reduzindo os impactos ambientais e aumentando a produtividade agrícola.
Title in English
Neural networks for semantic segmentation of weeds using high spatial resolution image mosaic from an unmanned aerial vehicle
Keywords in English
Artificial intelligence
Computer vision
Convolutional neural network
Deep learning
Machine learning
Precision agriculture
Remote sensing
Abstract in English
A modern remote sensing technology for aerial mapping using unmanned aerial vehicles (UAVs), popularly known as drones, has conquered more and more space in precision agriculture due to its ability to obtain georeferenced orthomosaics of agricultural fields with high spatial resolution, allowing the detection and management of weeds during all stages of crop development. Despite important advances in UAV acquisition systems and the development of new machine learning techniques using convolutional neural networks (CNNs) in image classification tasks, automatic weed detection remains a challenging problem due to their strong spectral similarity with the agricultural crop, since they reflect the same electromagnetic wavelength captured by the sensors. With the availability of RGB and multispectral sensors that capture high spatial resolution imagery in visible and infrared wavelengths, modern deep learning techniques have been applied in recent years to address the semantic segmentation problem in precision agriculture applications. Therefore, this work includes a bibliographical review of some neural network models for image classification and semantic segmentation, as well as a qualitative and quantitative performance analysis of the prediction maps of nine models in four semantic classes (soil, crop, weeds and grasses), applied in a specific domain with datasets formed by images and high-resolution RGB mosaics of an experimental sugarcane crop field with the presence of weeds. All semantic segmentation network approaches based on CNN decrease the spatial resolution of the high-level feature maps on top of the CNN and use different strategies to recover the spatial information for semantic prediction with the same dimension as the input image. The performances of these networks were compared quantitatively and qualitatively on our dataset. Analysis of the results indicated that networks that use strategies to aggregate multiscale context information to segment objects of different sizes obtain better average IoU performance in images with GSDs (Ground Sampling Distance) different from that used in training. As UAV image mosaics present variations in spatial resolution due to height variations during flight, a new multiscale semantic segmentation model based on CNNs was developed in this work, considering the characteristics of the best performing models in this specific domain, thus achieving a relatively higher performance than existing multiscale networks. Consequently, georeferenced orthomosaic maps, segmented by the proposed network, can be used in precision agriculture systems to locate weeds in fields of an agricultural crop, allowing the automated spraying of herbicides in the right locations at the necessary doses, reducing environmental impacts and increasing agricultural productivity.
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2024-01-22