Estimation of knots location and number in the splines regression models using an optimization approach

Ferreira, Alberto Rodrigues

doi:10.11606/D.45.2022.tde-08082022-182210

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.45.2022.tde-08082022-182210

Documento

Dissertação de Mestrado

Autor

Ferreira, Alberto Rodrigues (Catálogo USP)

Nome completo

Alberto Rodrigues Ferreira

E-mail

Unidade da USP

Instituto de Matemática e Estatística

Área do Conhecimento

Estatística

Data de Defesa

2022-06-06

Imprenta

São Paulo, 2022

Orientador

Leonardi, Florencia Graciela (Catálogo USP)

Banca examinadora

Leonardi, Florencia Graciela (Presidente)
Izbicki, Rafael
Sued, Raquel Mariela

Título em inglês

Estimation of knots location and number in the splines regression models using an optimization approach

Palavras-chave em inglês

BFGS
Knots location estimation
Knots number estimation
Regularization methods
Splines regression model

Resumo em inglês

In many practical problems related to supervised statistical learning, we are interested in predicting a continuous target. Frequently, the relationship between the explanatory variable and the target variable is nonlinear, so models that introduce nonlinearity for this purpose tend to obtain better performances in general. A statistical model that addresses this problem called the regression splines model has received considerable attention in recent years. This is due to its great predictive power and good fits incorporated by its flexibility. However, the splines regression model has a significant disadvantage: one of its main components, called knots, related to the change points, are usually chosen before the estimation process. They are considered pre-specified values, which in some situations can present severe problems in practical problems. In this work, we propose a new methodology that tries to solve this considering the knots location and knots number as parameters, and we solve this problem as an optimization approach using the nonlinear optimization algorithm BFGS. Furthermore, we introduce new regularization methods to penalize variables with irrelevant knots and avoid overfitting. The proposed methodology obtained many advantages compared to the approach used in the literature, such as automatic estimation of the number and location of knots, regularization methods that avoids overfitting, and selection of irrelevant knots. Our ap- proach obtained several gains in predictive performance and knots estimation in the simulations, thus obtaining better results than the usual procedure.

Título em português

Estimação da localização e número dos knots do modelo de regressão splines usando uma abordagem de otimização

Palavras-chave em português

BFGS
Estimação da localização dos knots
Estimação do número de knots
Métodos de regularização
Modelo de regressão splines

Resumo em português

Em muitos problemas práticos relacionados ao aprendizado estatístico supervisionado, estamos interessados em prever um alvo contínuo. Frequentemente, a relação entre a variável explicativa e o variável alvo é não linear, então os modelos que introduzem não linearidade para este propósito tendem a obter melhores performances em geral. Um modelo estatístico que aborda esse problema é chamado de regressão splines e tem recebido atenção considerável nos últimos anos. Isso se deve ao seu grande poder preditivo e bons ajustes incorporados pela sua flexibilidade. No entanto, o modelo de regressão splines tem um desvantagem significativa: um de seus principais componentes, chamados nós, relacionados aos pontos de mudança, geralmente são escolhidos antes do processo de estimação. São considerados valores pré-especificados, que em algumas situações podem apresentar problemas graves na prática. Neste trabalho, propomos uma nova metodologia que tenta resolver isso considerando a localização dos nós e o número de nós como parâmetros, e resolvemos esse problema como uma abordagem de otimização usando o algoritmo de otimização não linear BFGS. Além disso, introduzimos novos métodos de regularização para penalizar variáveis com nós e evitar overfitting. A metodologia proposta obteve muitas vantagens em relação à a abordagem utilizada na literatura, como a estimativa automática do número e localização de nós, métodos de regularização que evitam overfitting e seleção de nós irrelevantes. Nosso método obteve vários ganhos em desempenho preditivo e estimativa de nós nas simulações, obtendo assim melhores resultados do que o procedimento usual.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

dissertacao_alberto_corrigido.pdf (3.79 Mbytes)

Data de Publicação

2022-09-08

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.