• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.45.2022.tde-18042022-200608
Documento
Autor
Nome completo
Luiza Tuler Veloso
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2022
Orientador
Banca examinadora
Giampaoli, Viviana (Presidente)
Novelli, Cibele Maria Russo
Santos, Helton Saulo Bezerra dos
Título em português
Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
Palavras-chave em português
Dados desbalanceados
Risco Esperado
SIM-P
Validação cruzada
Resumo em português
Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.
Título em inglês
A comparative study of cross validation techniques applied to imbalanced data models
Palavras-chave em inglês
Cross validation
Expected Risk
Imbalanced data
MIS-C
Resumo em inglês
Within the context of predictive modeling, the chosing of a model involves evaluating, through Expected Risk, the quality of predictions. Such risk, however, may be underestimated if obtained from the same sample utilized to adjusting the model. To deal with such problem, Cross Validation strategies (Hold-out, K-Fold, Leave-one-out, Bootstrap) emerge, that seek to split the available data in Training Sample, in which the model will be adjusted, and Validation Sample, where the model will have its performance verified. When dealing with imbalanced data, in other words, data in which the event of interest (Y=1) of the binary response variable occurs dozens to thousands of times less than the other category (Y=0), might need some adaptations in the process of modeling and validation. In view of this, this paper seeks to evaluate the way in which model validation techiniques behave, according to the degree of data imbalance and different sample sizes. For such, a review of the techniques that enable the models validation and revision of the approaches and main difficulties when modeling imbalanced data was made. Finally, the validation techniques were evaluated, through simulation studies, for corrected logistic regression applied to imbalanced data, proposed by King & Zeng [2001] and, later, the methodology was assessed in a simulation study, then applied to a real database regarding the notification of cases of Multisystem Inflammatory Syndrome in Children (MIS-C) temporally associated with COVID-19.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-09-08
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.