Um estudo comparativo das técnicas de validação cruzada aplicadas a modelos mistos

Cunha, João Paulo Zanola

doi:10.11606/D.45.2019.tde-26082019-220647

Master Dissertation

DOI

10.11606/D.45.2019.tde-26082019-220647

Document

Master Dissertation

Author

Cunha, João Paulo Zanola ( )

Full name

João Paulo Zanola Cunha

E-mail

Institute/School/College

Instituto de Matemática e Estatística

Program or Specialty

Statistics

Date of Defense

2019-05-28

Published

São Paulo, 2019

Supervisor

Giampaoli, Viviana ( )

Committee

Giampaoli, Viviana (President)

García, Jesús Enrique

Hirata, Nina Sumiko Tomita

Title in Portuguese

Um estudo comparativo das técnicas de validação cruzada aplicadas a modelos mistos

Keywords in Portuguese

Modelos mistos, Risco esperado, Validação cruzada

Abstract in Portuguese

A avaliação da predição de um modelo por meio do cálculo do seu risco esperado é uma importante etapa no processo de escolha do um preditor eficiente para observações futuras. Porém, deve ser evitado nessa avaliação usar a mesma base em que foi criado o preditor, pois traz, no geral, estimativas abaixo do valor real do risco esperado daquele modelo. As técnicas de validação cruzada (K-fold, Leave-One-Out, Hold-Out e Bootstrap) são aconselhadas nesse caso, pois permitem a divisão de uma base em amostra de treino e validação, fazendo assim que a criação do preditor e a avaliação do seu risco sejam feitas em bases diferentes. Este trabalho apresenta uma revisão dessas técnicas e suas particularidades na estimação do risco esperado. Essas técnicas foram avaliadas em dois modelos mistos com distribuições Normal e Logístico e seus desempenhos comparados por meio de estudos de simulação. Por fim, as metodologias foram aplicadas em um conjunto de dados real.

Title in English

A comparative study of cross-validation techniques applied to mixed models

Keywords in English

Cross-validation, Expected risk, Mixed models

Abstract in English

The appraisal of models prediction through the calculation of the expected risk is an important step on the process of the choice of an efficient predictor to future observations. However, in this evaluation it should be avoided to use the same data to calculate the predictor on which it was created, due to it brings, in general, estimates above the real expected risk value of the model. In this case, the cross-validation methods (K-fold, Leave-One-Out, Hold-Out and Bootstrap) are recommended because the partitioning of the data in training and validation samples allows the creation of the predictor and its risk evaluation on different data sets. This work presents a briefing of this methods and its particularities on the expected risk estimation. These methods were evaluated on two mixed models with Normal and Logistic distributions and their performances were compared through simulation cases. Lastly, those methods were applied on a real database.

WARNING - Viewing this document is conditioned on acceptance of the terms of use. This document is for private use in research and teaching activities only.

Dissertacao_JoaoPauloZanola.pdf

Publishing Date

2019-08-27

Derived works

WARNING: Learn what derived works are in the digital library guidance pages.