• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.55.2022.tde-13122022-173125
Document
Author
Full name
Gabriel Gomes Ferreira
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2022
Supervisor
Committee
Guzmán, Jorge Luis Bazán (President)
Novelli, Cibele Maria Russo
Salasar, Luis Ernesto Bueno
Silva, Marcelo Andrade da
Title in Portuguese
Medidas de avaliação de classificadores binários para classes desbalanceadas
Keywords in Portuguese
Aprendizado de máquina
Avaliação de modelos
Classificador
Desbalanceamento de classes
Regressão binária
Abstract in Portuguese
Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
Title in English
Evaluation measures of binary classifiers for unbalanced classes
Keywords in English
Binary regression
Classification
Machine learning
Model evaluation
Unbalanced classes
Abstract in English
When we talk about machine learning it is very common to get into the context of automatic classifiers, and an even more common process is when we talk about classifiers with only two classification options or also called binary regressions. We find in the literature several models and algorithms that allow the binary classification to be done in different ways from explanatory variables, such as: decision trees, ensemble methods, support vector machines, neural networks and the logistic regression model itself. Besides the algorithms themselves, there are also several measures of how to measure the performance of these models, such as: accuracy, sensitivity, specificity, f1-score and area under the ROC curve. However, we can easily face the situation that the classes in which we want to label our observations are not proportional, that is, we have unbalanced groups in which the proportion of elements of a certain class is much higher than the proportion of the remaining class. And an even bigger problem than fitting models for these scenarios is to be able to evaluate them correctly. In this paper we intend to evaluate some of the main model performance measures found in the literature and understand their behavior when evaluating binary classifiers. From this, we intend to propose a measure or methodology based on a simulation study, which can be a practical alternative in real data situations with unbalanced binary classes and thus a more efficient alternative in model evaluation. From the analysis of 12 measures of predictive evaluation, measures of goodness of fit and other measures of overall model performance, we were able to define 3 factors in the way that the measures can be grouped according to the different levels of unbalance of our response variable to ensure a complete evaluation of the classifiers. And even in a real data application with the use of binary classifiers it was possible to understand how the nuances of the obtained values can be observed to define a winning model.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2022-12-13
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.