Master's Dissertation
DOI
https://doi.org/10.11606/D.45.2019.tde-26082019-220647
Document
Author
Full name
João Paulo Zanola Cunha
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2019
Supervisor
Committee
Giampaoli, Viviana (President)
García, Jesús Enrique
Hirata, Nina Sumiko Tomita
Title in Portuguese
Um estudo comparativo das técnicas de validação cruzada aplicadas a modelos mistos
Keywords in Portuguese
Modelos mistos
Risco esperado
Validação cruzada
Abstract in Portuguese
A avaliação da predição de um modelo por meio do cálculo do seu risco esperado é uma importante etapa no processo de escolha do um preditor eficiente para observações futuras. Porém, deve ser evitado nessa avaliação usar a mesma base em que foi criado o preditor, pois traz, no geral, estimativas abaixo do valor real do risco esperado daquele modelo. As técnicas de validação cruzada (K-fold, Leave-One-Out, Hold-Out e Bootstrap) são aconselhadas nesse caso, pois permitem a divisão de uma base em amostra de treino e validação, fazendo assim que a criação do preditor e a avaliação do seu risco sejam feitas em bases diferentes. Este trabalho apresenta uma revisão dessas técnicas e suas particularidades na estimação do risco esperado. Essas técnicas foram avaliadas em dois modelos mistos com distribuições Normal e Logístico e seus desempenhos comparados por meio de estudos de simulação. Por fim, as metodologias foram aplicadas em um conjunto de dados real.
Title in English
A comparative study of cross-validation techniques applied to mixed models
Keywords in English
Cross-validation
Expected risk
Mixed models
Abstract in English
The appraisal of models prediction through the calculation of the expected risk is an important step on the process of the choice of an efficient predictor to future observations. However, in this evaluation it should be avoided to use the same data to calculate the predictor on which it was created, due to it brings, in general, estimates above the real expected risk value of the model. In this case, the cross-validation methods (K-fold, Leave-One-Out, Hold-Out and Bootstrap) are recommended because the partitioning of the data in training and validation samples allows the creation of the predictor and its risk evaluation on different data sets. This work presents a briefing of this methods and its particularities on the expected risk estimation. These methods were evaluated on two mixed models with Normal and Logistic distributions and their performances were compared through simulation cases. Lastly, those methods were applied on a real database.
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2019-08-27