Comparação de métodos de imputação para dados de pecuária de precisão

Brancaglioni, Vivian Aparecida

doi:10.11606/T.11.2023.tde-05062023-144256

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.11.2023.tde-05062023-144256

Documento

Tesis Doctoral

Autor

Brancaglioni, Vivian Aparecida (Catálogo USP)

Nombre completo

Vivian Aparecida Brancaglioni

Dirección Electrónica

Instituto/Escuela/Facultad

Escola Superior de Agricultura Luiz de Queiroz

Área de Conocimiento

Estadística y Experimentación Agronómica

Fecha de Defensa

2023-04-05

Publicación

Piracicaba, 2023

Director

Dias, Carlos Tadeu dos Santos (Catálogo USP)

Tribunal

Dias, Carlos Tadeu dos Santos (Presidente)
Biase, Adriele Giaretta
Sarti, Danilo Augusto

Título en portugués

Comparação de métodos de imputação para dados de pecuária de precisão

Palabras clave en portugués

Dados longitudinais
Imputação múltipla
Métodos de imputação
MICE

Resumen en portugués

Durante a condução de um experimento ou pesquisa é comum existir perda de informação, seja por preenchimento incorreto do banco de dados ou por falta de informação para algumas observações de determinada variável. Isso ocorre por motivos que muitas vezes não se sabe definir, d essa forma, o valor que deveria ter sido coletado se configura como valor ausente, tornando o conjunto de dados obtido incompleto. Estudos com a presença de observações ausentes são muito comuns em grande parte das áreas do conhecimento, e com dados obtidos a partir da pecuária da precisão não seria diferente. Dados de pecuária de precisão auxiliam o setor agropecuário a acompanhar, mapear e identificar problemas e buscar soluções. O conjunto de dados utilizado neste trabalho provém da pecuária de precisão, no qual pode-se acompanhar a oscilação de peso de 38 animais, das raças Nelore e Cruzado Britânico, divididos entre macho inteiro e macho castrado. Esses dados foram coletados a partir de um sistema de plataforma de pesagem automática. No entanto, durante as pesagens algumas informações de peso foram perdidas e o objetivo deste trabalho foi comparar o desempenho de quatro métodos de imputação de dados da classe MICE, implementados no software R por meio do pacote mice: método de média preditiva (PMM), método baseado na regressão linear bayesiana (BLR), árvore de classificação e regressão (CART) e floresta aleatória (RF). Esses métodos foram comparados por meio de quatro critérios, raiz do erro quadrático médio (RMSE), pelo coeficiente d e correlação d e Pearson, índice de acurácia de Willmott e índice de desempenho. A análise foi conduzida da seguinte forma: primeiro foram removidas as observações com valor de peso faltante do conjunto de dados original, obtendo-se um conjunto completo; e a partir dele foram criados novos bancos com diferentes porcentagens de dados faltantes, 5%, 10% e 15%, removidos aleatoriamente. A partir desses novos cenários obtidos, cada um dos métodos foram aplicados, sendo consideradas 5 e 10 iterações. Pôde-se observar que não houve diferença para as imputações em todos os métodos e cenários com relação a quantidade de iterações. Fixando-se os métodos e comparando as diferentes proporções de dados faltantes, observou-se uma diminuição da variabilidade das medidas que envolvem os critérios de comparação para os diferentes métodos, exceto para o método de floresta aleatória, para maior quantidade de ausências. Quando comparados os métodos, fixando-se os cenários, foi possível observar que o método de árvore de classificação e r egressão teve melhor desempenho e o método de floresta aleatória se destacou de forma negativa. Ao aplicar os métodos no conjunto de dados originais, foi observado resultado semelhante, sendo o método CART o mais adequado para substituir os valores faltantes.

Título en inglés

Comparison of imputation methods for precision livestock data

Palabras clave en inglés

Imputation methods
Longitudinal data
MICE
Multiple imputation

Resumen en inglés

During experiments or research it is common for information to be lost, either by incorrectly filling out the database or by lack of information for some observations of a particular variable. This occurs for reasons that often cannot be defined so that the value that should have been collected is configured as a missing value, making the data set obtained incomplete. Studies with missing observations are very common in most areas of knowledge, and with data obtained from precision farming, it would be no different. Precision livestock data helps the agricultural sector to track, map, and identify problems and seek solutions. The data set used in this work comes from precision cattle breeding, where it is possible to follow the oscillation of weight of 38 animals, of the Nelore and “Cruzado Britânico” breeds, divided into full male and castrated males. These data were collected from an automatic weighing platform system. However, during the weightings, some weight information was lost and the objective of this work was to compare the performance of four MICE class data imputation methods, implemented in software R by means of the mice package: predictive mean method (PMM), Bayesian linear regression (BLR) based method, classification and regression tree (CART) and random forest (RF). These methods were compared using four criteria, root mean square error (RMSE), Pearson’s correlation coefficient, Willmott’s accuracy index, and performance index. The analysis was conducted as follows: first, observations with a missing weight value were removed from the original data set, obtaining a complete set; and from it, new databases were created with different percentages of missing data, 5%, 10%, and 15%. From these new obtained scenarios each of the methods was applied, with 5 and 10 iterations being considered. It could be observed that there was no difference in the imputations in all methods and scenarios regarding the number of iterations. By fixing the methods and comparing the different proportions of missing data, a decrease in the variability of the measures involving the comparison criteria was observed for the different methods, except for the random forest method, for a larger amount of missing data. When comparing the methods, and setting the scenarios, it was possible to observe that the classification and regression tree method performed better, and the random forest method stood out in a negative way. When applying the methods to the original data set, a similar result was observed, with the CART method being the most suitable to replace the missing values.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

Vivian_Aparecida_Brancaglioni_versao_revisada.pdf (907.42 Kbytes)

Fecha de Publicación

2023-06-06

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.