• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.45.2022.tde-18042022-200608
Documento
Autor
Nombre completo
Luiza Tuler Veloso
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2022
Director
Tribunal
Giampaoli, Viviana (Presidente)
Novelli, Cibele Maria Russo
Santos, Helton Saulo Bezerra dos
Título en portugués
Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
Palabras clave en portugués
Dados desbalanceados
Risco Esperado
SIM-P
Validação cruzada
Resumen en portugués
Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.
Título en inglés
A comparative study of cross validation techniques applied to imbalanced data models
Palabras clave en inglés
Cross validation
Expected Risk
Imbalanced data
MIS-C
Resumen en inglés
Within the context of predictive modeling, the chosing of a model involves evaluating, through Expected Risk, the quality of predictions. Such risk, however, may be underestimated if obtained from the same sample utilized to adjusting the model. To deal with such problem, Cross Validation strategies (Hold-out, K-Fold, Leave-one-out, Bootstrap) emerge, that seek to split the available data in Training Sample, in which the model will be adjusted, and Validation Sample, where the model will have its performance verified. When dealing with imbalanced data, in other words, data in which the event of interest (Y=1) of the binary response variable occurs dozens to thousands of times less than the other category (Y=0), might need some adaptations in the process of modeling and validation. In view of this, this paper seeks to evaluate the way in which model validation techiniques behave, according to the degree of data imbalance and different sample sizes. For such, a review of the techniques that enable the models validation and revision of the approaches and main difficulties when modeling imbalanced data was made. Finally, the validation techniques were evaluated, through simulation studies, for corrected logistic regression applied to imbalanced data, proposed by King & Zeng [2001] and, later, the methodology was assessed in a simulation study, then applied to a real database regarding the notification of cases of Multisystem Inflammatory Syndrome in Children (MIS-C) temporally associated with COVID-19.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2022-09-08
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.