Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest

Amaro, Rafaella Pironato

doi:10.11606/D.11.2023.tde-02102023-163947

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.11.2023.tde-02102023-163947

Documento

Dissertação de Mestrado

Autor

Amaro, Rafaella Pironato (Catálogo USP)

Nome completo

Rafaella Pironato Amaro

E-mail

Unidade da USP

Escola Superior de Agricultura Luiz de Queiroz

Área do Conhecimento

Engenharia de Sistemas Agrícolas

Data de Defesa

2023-08-03

Imprenta

Piracicaba, 2023

Orientador

Luciano, Ana Claudia dos Santos (Catálogo USP)

Banca examinadora

Luciano, Ana Claudia dos Santos (Presidente)
Adami, Marcos
Ferraz, Sílvio Frosini de Barros

Título em português

Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest

Palavras-chave em português

Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Seleção de variáveis
Sensoriamento remoto

Resumo em português

A cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R² entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha^-1, MAE entre 4,9 e 5,26 ton ha^-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R² igual a 0,72 enquanto os R² do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha^-1 enquanto o Modelo II de 8,62 a 15,56 ton ha^-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R² maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha^-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).

Título em inglês

Sugarcane yield estimation from Sentinel-2A satellite imagery and Random Forest machine learning algorithms

Palavras-chave em inglês

Red-edge
Remote sensing
Sugarcane monitoring
Variable selection
Vegetation indices

Resumo em inglês

Sugarcane is a very important crop for the Brazilian economy, so machine learning techniques are being used as an important tool to improve yield estimation. This study aimed to create an empirical model using agronomic, climatic, and satellite images, by Random Forest algorithm, to estimated sugarcane yield before the harvest, in São Paulo state (SP). We used radiometric bands and vegetation indices from Sentinel-2 images; agronomic data; crop water balance and climatic data. To select the most important variables it were builted yield estimation models based on three datasets from one mill: i) the first dataset used agronomic data, climatic data, crop water balance, and remote sensing data); ii) in the second dataset, the most strongly correlated variables were removed; and iii) the third dataset was created with the variables selected by feature selection using the Gini index. The models created with the datasets i, ii, and iii showed R² from 0.77 to 0.8, RMSE from 8.2 to 8.6 ton ha^-1, MAE from 4.9 to 5.26 ton ha^-1 and d-Willmott from 0.93 to 0.94, where the best result was using dataset 3 (iii). The most relevant variables to estimated sugarcane productivity were number of harvests, water deficit, NDRE and CIRE vegetation indices and Red-edge, NIR-8A and SWIR1 bands. The variable selection reduced the dimensionality of the data and improved the models' performance. After the selection of the most important predictor variables, it was created three operational models for application on the regional scale, using 70% of data to train and 30% to test. For this, we used data from three mills located in SP. The Model I (general) considered data from all mills for training and testing; Model II was similar to I for training, however, it was tested in each mill independently; for Model III the training and testing were made based on two groups of the sugarcane production cycles (plant cane and sugarcane ratoons). The results for Model I showed R² equal to 0.72 while the R² of Model II were between 0.60 and 0.78, RMSE for Model I was equal to 11.7 ton ha^-1 while Model II from 8.62 to 15.56 ton ha^-1, rRMSE was equal to 16.5% for Model I and 12.4 to 21.6%, for Model II. Model III showed R² greater than 0.61, and RMSE between 9.6 and 13.5 ton ha^-1. When average yield was compared with RMSE errors, better performance is obtained for Model III with rRMSE less than 15.3%.The use of Random Forest to create general models for sugarcane yield estimation in the state of Sao Paulo showed promise when calibrated with three mills and, separated by sugarcane production cycles.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Rafaella_Pironato_Amaro_versao_simplificada.pdf (837.18 Kbytes)

Há arquivos retidos devido a solicitação (publicação de dados, patentes ou diretos autorais).

Data de Liberação

2025-08-03

Data de Publicação

2023-10-03

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.