Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest

Amaro, Rafaella Pironato

doi:10.11606/D.11.2023.tde-02102023-163947

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.11.2023.tde-02102023-163947

Document

Master's Dissertation

Author

Amaro, Rafaella Pironato (Catálogo USP)

Full name

Rafaella Pironato Amaro

E-mail

Institute/School/College

Escola Superior de Agricultura Luiz de Queiroz

Knowledge Area

Agricultural System Engineering

Date of Defense

2023-08-03

Published

Piracicaba, 2023

Supervisor

Luciano, Ana Claudia dos Santos (Catálogo USP)

Committee

Luciano, Ana Claudia dos Santos (President)
Adami, Marcos
Ferraz, Sílvio Frosini de Barros

Title in Portuguese

Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest

Keywords in Portuguese

Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Seleção de variáveis
Sensoriamento remoto

Abstract in Portuguese

A cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R² entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha^-1, MAE entre 4,9 e 5,26 ton ha^-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R² igual a 0,72 enquanto os R² do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha^-1 enquanto o Modelo II de 8,62 a 15,56 ton ha^-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R² maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha^-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).

Title in English

Sugarcane yield estimation from Sentinel-2A satellite imagery and Random Forest machine learning algorithms

Keywords in English

Red-edge
Remote sensing
Sugarcane monitoring
Variable selection
Vegetation indices

Abstract in English

Sugarcane is a very important crop for the Brazilian economy, so machine learning techniques are being used as an important tool to improve yield estimation. This study aimed to create an empirical model using agronomic, climatic, and satellite images, by Random Forest algorithm, to estimated sugarcane yield before the harvest, in São Paulo state (SP). We used radiometric bands and vegetation indices from Sentinel-2 images; agronomic data; crop water balance and climatic data. To select the most important variables it were builted yield estimation models based on three datasets from one mill: i) the first dataset used agronomic data, climatic data, crop water balance, and remote sensing data); ii) in the second dataset, the most strongly correlated variables were removed; and iii) the third dataset was created with the variables selected by feature selection using the Gini index. The models created with the datasets i, ii, and iii showed R² from 0.77 to 0.8, RMSE from 8.2 to 8.6 ton ha^-1, MAE from 4.9 to 5.26 ton ha^-1 and d-Willmott from 0.93 to 0.94, where the best result was using dataset 3 (iii). The most relevant variables to estimated sugarcane productivity were number of harvests, water deficit, NDRE and CIRE vegetation indices and Red-edge, NIR-8A and SWIR1 bands. The variable selection reduced the dimensionality of the data and improved the models' performance. After the selection of the most important predictor variables, it was created three operational models for application on the regional scale, using 70% of data to train and 30% to test. For this, we used data from three mills located in SP. The Model I (general) considered data from all mills for training and testing; Model II was similar to I for training, however, it was tested in each mill independently; for Model III the training and testing were made based on two groups of the sugarcane production cycles (plant cane and sugarcane ratoons). The results for Model I showed R² equal to 0.72 while the R² of Model II were between 0.60 and 0.78, RMSE for Model I was equal to 11.7 ton ha^-1 while Model II from 8.62 to 15.56 ton ha^-1, rRMSE was equal to 16.5% for Model I and 12.4 to 21.6%, for Model II. Model III showed R² greater than 0.61, and RMSE between 9.6 and 13.5 ton ha^-1. When average yield was compared with RMSE errors, better performance is obtained for Model III with rRMSE less than 15.3%.The use of Random Forest to create general models for sugarcane yield estimation in the state of Sao Paulo showed promise when calibrated with three mills and, separated by sugarcane production cycles.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

Rafaella_Pironato_Amaro_versao_simplificada.pdf (837.18 Kbytes)

There are withheld file due to requirements (data publishing, patents or rights).

Release Date

2025-08-03

Publishing Date

2023-10-03

Derived works

WARNING: Learn what derived works are clicking here.