• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2022.tde-13122022-173125
Documento
Autor
Nombre completo
Gabriel Gomes Ferreira
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2022
Director
Tribunal
Guzmán, Jorge Luis Bazán (Presidente)
Novelli, Cibele Maria Russo
Salasar, Luis Ernesto Bueno
Silva, Marcelo Andrade da
Título en portugués
Medidas de avaliação de classificadores binários para classes desbalanceadas
Palabras clave en portugués
Aprendizado de máquina
Avaliação de modelos
Classificador
Desbalanceamento de classes
Regressão binária
Resumen en portugués
Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
Título en inglés
Evaluation measures of binary classifiers for unbalanced classes
Palabras clave en inglés
Binary regression
Classification
Machine learning
Model evaluation
Unbalanced classes
Resumen en inglés
When we talk about machine learning it is very common to get into the context of automatic classifiers, and an even more common process is when we talk about classifiers with only two classification options or also called binary regressions. We find in the literature several models and algorithms that allow the binary classification to be done in different ways from explanatory variables, such as: decision trees, ensemble methods, support vector machines, neural networks and the logistic regression model itself. Besides the algorithms themselves, there are also several measures of how to measure the performance of these models, such as: accuracy, sensitivity, specificity, f1-score and area under the ROC curve. However, we can easily face the situation that the classes in which we want to label our observations are not proportional, that is, we have unbalanced groups in which the proportion of elements of a certain class is much higher than the proportion of the remaining class. And an even bigger problem than fitting models for these scenarios is to be able to evaluate them correctly. In this paper we intend to evaluate some of the main model performance measures found in the literature and understand their behavior when evaluating binary classifiers. From this, we intend to propose a measure or methodology based on a simulation study, which can be a practical alternative in real data situations with unbalanced binary classes and thus a more efficient alternative in model evaluation. From the analysis of 12 measures of predictive evaluation, measures of goodness of fit and other measures of overall model performance, we were able to define 3 factors in the way that the measures can be grouped according to the different levels of unbalance of our response variable to ensure a complete evaluation of the classifiers. And even in a real data application with the use of binary classifiers it was possible to understand how the nuances of the obtained values can be observed to define a winning model.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2022-12-13
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.