• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.11.2023.tde-02102023-163947
Document
Author
Full name
Rafaella Pironato Amaro
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
Piracicaba, 2023
Supervisor
Committee
Luciano, Ana Claudia dos Santos (President)
Adami, Marcos
Ferraz, Sílvio Frosini de Barros
Title in Portuguese
Estimativa de produtividade da cana-de-açúcar a partir de imagens do satélite Sentinel-2A e o algoritmo de aprendizagem de máquina Random Forest
Keywords in Portuguese
Borda vermelha
Índices de vegetação
Monitoramento da cana-de-açúcar
Seleção de variáveis
Sensoriamento remoto
Abstract in Portuguese
A cana-de-açúcar é uma das culturas mais importantes para a economia brasileira, por isso, técnicas de aprendizado de máquina são utilizadas como importantes ferramentas de estimativa da produtividade. O objetivo deste trabalho foi criar modelos empíricos utilizando dados agronômicos, climáticos e de imagens de satélite, a partir do algoritmo Random Forest, para estimar a produtividade da cana-de-açúcar antes da colheita, no estado de São Paulo (SP). Para isso, foram utilizadas imagens Sentinel-2A; dados agronômicos; balanço hídrico da cultura e dados climáticos. Para selecionar as variáveis preditoras mais importantes foram criados modelos de estimativa de produtividade com três conjuntos de dados de uma usina: i) o primeiro conjunto de dados utilizou as variáveis agronômicas, climáticas, o balanço hídrico da cultura, índices de vegetação e bandas espectrais; ii) no segundo conjunto de dados, as variáveis fortemente correlacionadas foram removidas; e iii) o terceiro conjunto de dados foi criado com base na seleção de varáveis mais importantes pelo índice de Gini. Os modelos criados com o conjuntos de dados i, ii, iii apresentaram R2 entre 0,77 e 0,8, RMSE entre 8,2 e 8,6 ton ha-1, MAE entre 4,9 e 5,26 ton ha-1 e d-Willmott entre 0,93 e 0,94, sendo o melhor modelo com o conjunto de dados iii. As variáveis mais relevantes para estimar a produtividade da cana-de-açúcar foram o estágio de corte, o déficit hídrico, os índices NDVIRE e CIRE, além das bandas Red-edge, NIR-8A e SWIR1. A seleção das variáveis importantes reduziu a dimensionalidade dos dados e melhorou o desempenho do modelo. Após a identificação das variáveis preditoras mais importantes, foram criados três modelos operacionais para aplicação em escala regional, com 70% de dados para treino e 30% para teste. Para isso, foram utilizados dados de 3 usinas localizadas no estado de SP. O Modelo I (geral) considerou os dados de todas as usinas para treino e teste; o Modelo II foi similar ao I para o treino, porém foi testado em cada uma das usinas de forma separada; para o Modelo III o treinamento e teste foi feito com base em dois ciclos de produção da cana de açúcar (cana-planta e cana-soca). O Modelo I apresentou R2 igual a 0,72 enquanto os R2 do Modelo II ficaram entre 0,60 e 0,78, o RMSE para o Modelo I foi igual a 11,7 ton ha-1 enquanto o Modelo II de 8,62 a 15,56 ton ha-1, rRMSE foi igual a 16,5% para o Modelo I e 12,4 a 21,6%, para o Modelo II. O Modelo III apresentou R2 maior que 0,61, e RMSE entre 9,6 e 13,5 ton ha-1. Quando se comparou o rendimento médio com os erros RMSE, obtém-se um melhor desempenho para o modelo III com rRMSE inferior a 15,3%. A utilização do Random Forest para a criação de modelos globais para estimativa da cana-de-açúcar no estado de São Paulo mostrou-se promissora quando calibrado com três usinas e, separados em ciclos de produção da cana-de-açúcar (cana-planta e cana-soca).
Title in English
Sugarcane yield estimation from Sentinel-2A satellite imagery and Random Forest machine learning algorithms
Keywords in English
Red-edge
Remote sensing
Sugarcane monitoring
Variable selection
Vegetation indices
Abstract in English
Sugarcane is a very important crop for the Brazilian economy, so machine learning techniques are being used as an important tool to improve yield estimation. This study aimed to create an empirical model using agronomic, climatic, and satellite images, by Random Forest algorithm, to estimated sugarcane yield before the harvest, in São Paulo state (SP). We used radiometric bands and vegetation indices from Sentinel-2 images; agronomic data; crop water balance and climatic data. To select the most important variables it were builted yield estimation models based on three datasets from one mill: i) the first dataset used agronomic data, climatic data, crop water balance, and remote sensing data); ii) in the second dataset, the most strongly correlated variables were removed; and iii) the third dataset was created with the variables selected by feature selection using the Gini index. The models created with the datasets i, ii, and iii showed R2 from 0.77 to 0.8, RMSE from 8.2 to 8.6 ton ha-1, MAE from 4.9 to 5.26 ton ha-1 and d-Willmott from 0.93 to 0.94, where the best result was using dataset 3 (iii). The most relevant variables to estimated sugarcane productivity were number of harvests, water deficit, NDRE and CIRE vegetation indices and Red-edge, NIR-8A and SWIR1 bands. The variable selection reduced the dimensionality of the data and improved the models' performance. After the selection of the most important predictor variables, it was created three operational models for application on the regional scale, using 70% of data to train and 30% to test. For this, we used data from three mills located in SP. The Model I (general) considered data from all mills for training and testing; Model II was similar to I for training, however, it was tested in each mill independently; for Model III the training and testing were made based on two groups of the sugarcane production cycles (plant cane and sugarcane ratoons). The results for Model I showed R2 equal to 0.72 while the R2 of Model II were between 0.60 and 0.78, RMSE for Model I was equal to 11.7 ton ha-1 while Model II from 8.62 to 15.56 ton ha-1, rRMSE was equal to 16.5% for Model I and 12.4 to 21.6%, for Model II. Model III showed R2 greater than 0.61, and RMSE between 9.6 and 13.5 ton ha-1. When average yield was compared with RMSE errors, better performance is obtained for Model III with rRMSE less than 15.3%.The use of Random Forest to create general models for sugarcane yield estimation in the state of Sao Paulo showed promise when calibrated with three mills and, separated by sugarcane production cycles.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
There are withheld file due to requirements (data publishing, patents or rights).
Release Date
2025-08-03
Publishing Date
2023-10-03
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.