Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.55.2021.tde-10052021-093703
Documento
Autor
Nome completo
Erica da Silva Lopes
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2021
Orientador
Banca examinadora
Suzuki, Adriano Kamimura (Presidente)
Boas, Paulino Ribeiro Villas
Pescim, Rodrigo Rossetto
Souza, Anderson Luiz Ara
Título em português
A influência de dados correlacionados em modelos de Aprendizado de Máquina - Um estudo empírico
Palavras-chave em português
Aprendizado de máquina
Aprendizado estatístico
Generalização
Independência amostral
Resumo em português
O uso de modelos de Aprendizado de Máquina tem sido difundido em diferentes áreas da indústria, seja para medir satisfação de marcas de acordo com comentários na Internet, ou para recomendar produtos, ou para avaliar o risco de crédito. Entretanto, muitos analistas associam esta disciplina exclusivamente à área da Ciência da Computação, desconsiderando conceitos estatísticos fundamentais para garantir o aprendizado, generalização, do modelo. Tendo em vista que a Teoria do Aprendizado Estatístico defende cinco premissas para a garantia da generalização, o objetivo deste estudo é avaliar empiricamente os efeitos ao desconsiderar uma das premissas, a independência entre as observações. Neste sentido, foram avaliadas duas bases de dados do setor bancário, ambas com dados coletados em uma janela temporal. As bases foram separadas em três subconjuntos (treino, validação e teste), em que os dois primeiros contêm observações coletadas na mesma janela temporal, porém a validação não foi usada no desenvolvimento do modelo. Observa-se que o teste contém informações novas não pertencentes a janela temporal da base de treino. O subconjunto de validação permite que o desempenho do modelo seja avaliado em dados que possuem características semelhantes aos utilizados no treino. Por outro lado, o teste permite a avaliação em um novo cenário, uma vez que o período de observação não foi incluído no treino do modelo. A técnica de Aprendizado de Máquina Light Gradient Boosting Machine foi usada para modelar cada uma das bases de treino. A performance dos modelos foi mensurada com a métrica AUC e comparada com os diferentes tipos de autocorrelação de cada base (dependência entre unidades amostrais e temporal). Os resultados mostram que a autocorrelação temporal, estatisticamente significante para os dois conjuntos de dados, influencia na queda de performance fora da janela temporal de desenvolvimento dos modelos (subconjuntos de teste). Por outro lado, para base de dados em que não há autocorrelação significativa entre as observações, o modelo ajustado apresentou bom desempenho para os dados de validação, diferente do que ocorreu com a base que possui autocorrelação significativa entre as observações. Sendo assim, há indícios de que ao se desconsiderar a premissa de independência no conjunto de dados a capacidade de aprendizado do modelo é prejudicada.
Título em inglês
The influence of correlated data on Machine Learning models - An empirical study
Palavras-chave em inglês
Generalization
Machine learning
Sampling independence
Statistical learning
Resumo em inglês
The use of Machine Learning models has been widespread in different areas of the industry, either to assess brand satisfaction according to comments on the internet, or to recommend products, or to assess credit risk. However, many people associate this subject exclusively to computer science area, disregarding fundamental statistical concepts to guarantee the learning, generalization, of the model. Bearing in mind that the Theory of Statistical Learning has five premises for a guarantee of generalization, the aim of this study is to empirically evaluate the effects by disregarding one of the premises, an independence among the necessary ones. In this sense, two databases of the banking sector were evaluated, both with data collected in a temporal window. The databases were divided into training, validation and testing, in which the first two were collected at the same time window, but the validation was not used in the development of the model. We note that the teste contains new information not belonging to the time frame of the training base. The Machine Learning textit Light Gradient Boosting Machine technique was used to model each of the training bases. The performance of the models was measured with the AUC metric and compared with the different types of autocorrelation for each base (dependence between sample and temporal units). The results showed that a temporal autocorrelation, statistically significant for the two data sets, influences the decrease in performance for the temporal window of development of the models (test subsets). On the other hand, for a database in which there is not autocorrelation between for a database in which there is not autocorrelation between the observations, the fitted model presented good performance for the validation data. Also, we note this not occur for the fitted model with the base that has significant autocorralation between the observations. Thus, there are indications that if the premise of independence in the data set is disregarded, the ability of the model to learn is impaired.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2021-05-10