Análise quantitativa do impacto da ausência de dados.

Campos, Debora Ribeiro Doimo de

doi:10.11606/D.3.2021.tde-31082021-111051

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.3.2021.tde-31082021-111051

Document

Mémoire de Maîtrise

Auteur

Campos, Debora Ribeiro Doimo de (Catálogo USP)

Nom complet

Debora Ribeiro Doimo de Campos

Adresse Mail

Unité de l'USP

Escola Politécnica

Domain de Connaissance

Génie Informatique

Date de Soutenance

2021-05-20

Editeur

São Paulo, 2021

Directeur

Almeida Junior, Jorge Rady de (Catálogo USP)

Jury

Almeida Junior, Jorge Rady de (Président)
Cansado, Jacinto Carlos Ascencio
Oliveira, Adilson de

Titre en portugais

Análise quantitativa do impacto da ausência de dados.

Mots-clés en portugais

Big data
Dados ausentes
Informação (Qualidade)
Regressão logística
Tecnologia da informação

Resumé en portugais

Hoje o Big Data já faz parte do cotidiano das pessoas e está em itens como: assistentes virtuais, Siri e Alexa; carros autônomos; recomendações de compras; sistemas antifraude; aplicações na área da saúde, como monitoramento cardíaco e de passos; etc. Essas novas tecnologias facilitam muito o dia a dia da população, geram negócios e consequentemente produzem um imenso volume de dados a serem armazenados, analisados e tratados. Com o grande volume de dados, surgem também problemas como outliers, atributos vazios e replicados, que caracterizam baixa qualidade da informação. Um dos tipos mais comuns de baixa qualidade da informação é ausência de dados. Essa falta de dados acarreta vários problemas, como a redução do poder estatístico, distorção da estimativa de parâmetros e redução na representatividade das amostras, que impactam a análise do estudo. A maioria das ausências acontece mais comumente em pesquisas respondidas manualmente, transcrições ou anotações, em falha de sensores e em bases de dados de sistemas que possuem algum equívoco de lógica. Por isso, são muito frequentes no dia a dia de profissionais de tecnologia, pesquisadores e cientistas, especialmente para aqueles que trabalham e processam grandes volumes de dados. Boa parte dos trabalhos recentes relacionados ao tema ausência de dados, focam em como tratar ou resolver a falta de dados e não necessariamente, é voltado a compreender o real impacto dessa omissão. Por consequência, o objetivo central desta dissertação é responder a seguinte pergunta: "Como uma análise de dados, feita utilizando um algoritmo preditivo, é impactada pelos dados ausentes?". Então, foi codificada uma versão do algoritmo Logistic Regression, para testar essas situações. Na qual foram implementados alguns cenários, que consistiu em aumentar progressivamente a omissão em dados de treino e de teste. Após codificar toda essa lógica, foram usados os dados da Flor de Íris, que é amplamente reconhecida no meio acadêmico-científico, para testar a solução e servir como demonstrativo da prova de conceito. Depois de executar o algoritmo, foram obtidos os resultados da Acurácia e da Matriz de Confusão da regressão em cada cenário. A partir da análise dos resultados, conclui-se que o aumento das omissões diminui a assertividade do algoritmo Logistic Regression utilizando-se o dataset Flor de Íris, quando comparada a Acurácia do cenário completo com o cenário de ausências em 60%. Contudo, não é em todas as situações que o acréscimo de incompletudes piorou o resultado. Logo, é difícil de afirmar que em todos os cenários, quanto maior o número de ausências pior é a qualidade da análise.

Titre en anglais

Quantitative analysis of the impact of missing data.

Mots-clés en anglais

Data quality
Logistic regression
Missing data
Missing values

Resumé en anglais

Today Big Data is part of people's daily lives and are present in many items such as: virtual assistants, such as Siri and Alexa; autonomous cars; shopping recommendations; anti-fraud systems; applications in the health area, such as cardiac and step monitoring; etc. These new technologies make the people's daily life much easier, generate business and consequently produce a huge volume of data to be stored, analyzed and treated. Due to the large volume of data, problems also arise such as outliers, empty and replicated attributes, which characterize low quality of information. One of the most common types of low-quality information is missing data. This omission of data causes several problems like the reduction of statistical power, distortion of the estimate of parameters and reduction in the representativeness of the samples, which impact the analysis of the study. Most absences occur most commonly in surveys answered manually, transcriptions or annotations, in failure of sensors and in databases of systems that present some logic mistake. For this reason, they are very common in the daily lives of technology professionals, researchers and scientists, especially for those who work and process large volumes of data. Much of the recent work related to the topic of missing data focuses on how to treat or solve the missing and is not necessarily aimed at understanding the real impact of this omission. Consequently, the main objective of this dissertation is to answer the following question: "How is a data analysis, made by using a predictive algorithm, impacted by the missing data?". Then, a version of the Logistic Regression algorithm was coded to test these situations. In which some scenarios were implemented, which consisted of progressively increasing the omission in training and test data. After coding all this logic, was used Iris Flower dataset, which is widely recognized in the academicscientific environment, to test the solution and serve as a proof of concept. After executing the algorithm, the results of the Accuracy and Confusion Matrix of the regression were obtained in each scenario. From the analysis of the results, it is concluded that the increase in omissions decreases the assertiveness of the Logistic Regression algorithm using the Iris Flower dataset, when comparing the Accuracy of the complete scenario to the absence scenario by 60%. However, it is not in all situations that the addition of incompleteness worsened the result. Therefore, it is difficult to say that in all scenarios, the greater the number of absences, the worse the quality of the analysis.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

DeboraRibeiroDoimodeCamposCorr21.pdf (2.70 Mbytes)

Date de Publication

2021-09-01

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.