• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.55.2022.tde-13122022-173125
Documento
Autor
Nome completo
Gabriel Gomes Ferreira
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2022
Orientador
Banca examinadora
Guzmán, Jorge Luis Bazán (Presidente)
Novelli, Cibele Maria Russo
Salasar, Luis Ernesto Bueno
Silva, Marcelo Andrade da
Título em português
Medidas de avaliação de classificadores binários para classes desbalanceadas
Palavras-chave em português
Aprendizado de máquina
Avaliação de modelos
Classificador
Desbalanceamento de classes
Regressão binária
Resumo em português
Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
Título em inglês
Evaluation measures of binary classifiers for unbalanced classes
Palavras-chave em inglês
Binary regression
Classification
Machine learning
Model evaluation
Unbalanced classes
Resumo em inglês
When we talk about machine learning it is very common to get into the context of automatic classifiers, and an even more common process is when we talk about classifiers with only two classification options or also called binary regressions. We find in the literature several models and algorithms that allow the binary classification to be done in different ways from explanatory variables, such as: decision trees, ensemble methods, support vector machines, neural networks and the logistic regression model itself. Besides the algorithms themselves, there are also several measures of how to measure the performance of these models, such as: accuracy, sensitivity, specificity, f1-score and area under the ROC curve. However, we can easily face the situation that the classes in which we want to label our observations are not proportional, that is, we have unbalanced groups in which the proportion of elements of a certain class is much higher than the proportion of the remaining class. And an even bigger problem than fitting models for these scenarios is to be able to evaluate them correctly. In this paper we intend to evaluate some of the main model performance measures found in the literature and understand their behavior when evaluating binary classifiers. From this, we intend to propose a measure or methodology based on a simulation study, which can be a practical alternative in real data situations with unbalanced binary classes and thus a more efficient alternative in model evaluation. From the analysis of 12 measures of predictive evaluation, measures of goodness of fit and other measures of overall model performance, we were able to define 3 factors in the way that the measures can be grouped according to the different levels of unbalance of our response variable to ensure a complete evaluation of the classifiers. And even in a real data application with the use of binary classifiers it was possible to understand how the nuances of the obtained values can be observed to define a winning model.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-12-13
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.