Doctoral Thesis
Full name
Yuri Sampaio Maluf
Knowledge Area
Date of Defense
São Paulo, 2023
Ferrari, Silvia Lopes de Paula (President)
Bayer, Fábio Mariano
Carrasco, Jalmar Manuel Farfan
Giampaoli, Viviana
Otiniano, Cira Etheowalda Guevara
Title in English
Robust beta regression through the logit transformation
Keywords in English
Beta regression
Proportional data
Robust estimators
Robust inference
Abstract in English
Beta regression models are employed for modeling continuous response variables in the unit interval, like rates, percentages, or proportions. Their applications appear in several areas, such as medicine, environmental research, and finance. Under beta regression models, the usual inference procedure is essentially based on the classical maximum likelihood approach. Nevertheless, it is well known that the maximum likelihood-based inference is easily affected by the presence of outliers. The lack of robustness may bring a severe bias and misleading conclusions. Recently, robust estimators for beta regression models have been proposed. These estimators require non-trivial restrictions in the parameter space, which limit their application. This thesis proposes two new robust estimators, namely the logit minimum power divergence estimator (LMDPDE) and the logit surrogate maximum likelihood estimator (LSMLE), that overcome this drawback. The LMDPDE and the LSMLE belong to the general class of M-estimators, which allows us to derive some important properties, such as the asymptotic distribution and the influence function. We also develop robust versions of the Wald-type test. All robust estimators, statistical tests, and other tools treated in this work are implemented in the R package robustbetareg. The package is available on the official repository of R (CRAN). Through Monte Carlo simulation studies, we examine the performance of the proposed estimators and the robust Wald tests and compare them with the corresponding inference procedures presented in the literature. Real data applications in the context of sports of Australian athletes and access to health insurance coverage in a Brazilian state using the proposed methodologies are presented. The thesis closes with concluding remarks about its main contributions and points out some important aspects that deserve special attention for future research.
Title in Portuguese
Regressão beta robusta através da transformação logit
Keywords in Portuguese
Dados de proporção
Estimadores robusto
Inferência robusta
Regressão Beta
Abstract in Portuguese
Os modelos de regressão beta são empregados para modelar variáveis de resposta contínua no intervalo da unidade, como taxas, porcentagens ou proporções. Suas aplicações surgem em diversas áreas como medicina, pesquisa ambiental e finanças. Em modelos de regressão beta, o procedimento de inferência usual é essencialmente baseado na abordagem clássica de máxima verossimilhança. No entanto, é sabido que a inferência baseada em máxima verossimilhança é facilmente afetada pela presença de outliers. A falta de robustez pode trazer um viés severo e conclusões enganosas. Recentemente, estimadores robustos para modelos de regressão beta foram propostos. Esses estimadores requerem restrições não triviais no espaço paramétrico, o que limita sua aplicação. Esta tese propõe dois novos estimadores robustos, a saber, o estimador logit de divergência de potência mínima (LMDPDE) e o estimador logit de máxima verossimilhança substituta (LSMLE), que superam essa desvantagem. O LMDPDE e o LSMLE pertencem à classe geral dos M-estimadores, o que nos permite derivar algumas propriedades importantes, como a distribuição assintótica e a função de influência. Também desenvolvemos versões robustas do teste do tipo Wald. Todos os estimadores robustos, testes estatísticos e outras ferramentas tratadas neste trabalho são implementados no pacote robustbetareg em linguagem R. O pacote está disponível no repositório oficial do R (CRAN). Através de estudos de simulações de Monte Carlo, examinamos o desempenho dos estimadores propostos, do teste robusto de Wald e os comparamos com os procedimentos de inferência correspondentes apresentados na literatura. São apresentadas aplicações de dados reais no contexto esportivo de atletas australianos e acesso à cobertura de plano de saúde em um estado brasileiro utilizando as metodologias propostas. A tese encerra com considerações finais sobre suas principais contribuições e aponta alguns aspectos importantes que merecem atenção especial para pesquisas futuras.
