• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.45.2022.tde-18042022-200608
Document
Auteur
Nom complet
Luiza Tuler Veloso
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2022
Directeur
Jury
Giampaoli, Viviana (Président)
Novelli, Cibele Maria Russo
Santos, Helton Saulo Bezerra dos
Titre en portugais
Um estudo comparativo de técnicas de validação cruzada aplicadas a modelos para dados desbalanceados
Mots-clés en portugais
Dados desbalanceados
Risco Esperado
SIM-P
Validação cruzada
Resumé en portugais
Dentro do contexto de modelagem preditiva, a escolha de um modelo perpassa pela avaliação da qualidade das predições por meio do Risco Esperado. Esse risco, no entanto, pode ser subestimado se obtido a partir da mesma amostra utilizada para ajuste do modelo. Para lidar com este problema, surgem estratégias de Validação Cruzada (Hold-out, K-Fold, Leave-one-out, Bootstrap) que buscam separar os dados disponíveis em Amostra de Treino, em que o modelo será ajustado, e Amostra de Validação, em que o modelo terá seu desempenho verificado. Ao se tratar de dados desbalanceados, ou seja, dados nos quais o evento de interesse (Y=1) da variável resposta binária ocorre dezenas a milhares de vezes menos do que a outra categoria (Y=0), podem ser necessárias algumas adaptações no processo de modelagem e validação. Em vista disso, este trabalho busca avaliar a maneira com que as técnicas de validação de modelos se comportam conforme o desbalanceamento dos dados para tamanhos distintos de amostra. Para isso, foi realizada revisão das técnicas que possibilitam a validação de modelos e revisão das tratativas e principais dificuldades ao modelar dados desbalanceados. Por fim, as técnicas de validação foram avaliadas, a partir de simulações, para modelos logísticos com correção no viés para dados desbalanceados proposta por King e Zeng [2001] e, posteriormente, foi avaliada a metodologia em estudo de simulação e aplicada em uma base de dados real referente a notificação de casos da Síndrome Inflamatória Multissistêmica (SIM-P) temporalmente associada à COVID-19.
Titre en anglais
A comparative study of cross validation techniques applied to imbalanced data models
Mots-clés en anglais
Cross validation
Expected Risk
Imbalanced data
MIS-C
Resumé en anglais
Within the context of predictive modeling, the chosing of a model involves evaluating, through Expected Risk, the quality of predictions. Such risk, however, may be underestimated if obtained from the same sample utilized to adjusting the model. To deal with such problem, Cross Validation strategies (Hold-out, K-Fold, Leave-one-out, Bootstrap) emerge, that seek to split the available data in Training Sample, in which the model will be adjusted, and Validation Sample, where the model will have its performance verified. When dealing with imbalanced data, in other words, data in which the event of interest (Y=1) of the binary response variable occurs dozens to thousands of times less than the other category (Y=0), might need some adaptations in the process of modeling and validation. In view of this, this paper seeks to evaluate the way in which model validation techiniques behave, according to the degree of data imbalance and different sample sizes. For such, a review of the techniques that enable the models validation and revision of the approaches and main difficulties when modeling imbalanced data was made. Finally, the validation techniques were evaluated, through simulation studies, for corrected logistic regression applied to imbalanced data, proposed by King & Zeng [2001] and, later, the methodology was assessed in a simulation study, then applied to a real database regarding the notification of cases of Multisystem Inflammatory Syndrome in Children (MIS-C) temporally associated with COVID-19.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-09-08
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.