• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.3.2021.tde-31082021-111051
Document
Author
Full name
Debora Ribeiro Doimo de Campos
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2021
Supervisor
Committee
Almeida Junior, Jorge Rady de (President)
Cansado, Jacinto Carlos Ascencio
Oliveira, Adilson de
Title in Portuguese
Análise quantitativa do impacto da ausência de dados.
Keywords in Portuguese
Big data
Dados ausentes
Informação (Qualidade)
Regressão logística
Tecnologia da informação
Abstract in Portuguese
Hoje o Big Data já faz parte do cotidiano das pessoas e está em itens como: assistentes virtuais, Siri e Alexa; carros autônomos; recomendações de compras; sistemas antifraude; aplicações na área da saúde, como monitoramento cardíaco e de passos; etc. Essas novas tecnologias facilitam muito o dia a dia da população, geram negócios e consequentemente produzem um imenso volume de dados a serem armazenados, analisados e tratados. Com o grande volume de dados, surgem também problemas como outliers, atributos vazios e replicados, que caracterizam baixa qualidade da informação. Um dos tipos mais comuns de baixa qualidade da informação é ausência de dados. Essa falta de dados acarreta vários problemas, como a redução do poder estatístico, distorção da estimativa de parâmetros e redução na representatividade das amostras, que impactam a análise do estudo. A maioria das ausências acontece mais comumente em pesquisas respondidas manualmente, transcrições ou anotações, em falha de sensores e em bases de dados de sistemas que possuem algum equívoco de lógica. Por isso, são muito frequentes no dia a dia de profissionais de tecnologia, pesquisadores e cientistas, especialmente para aqueles que trabalham e processam grandes volumes de dados. Boa parte dos trabalhos recentes relacionados ao tema ausência de dados, focam em como tratar ou resolver a falta de dados e não necessariamente, é voltado a compreender o real impacto dessa omissão. Por consequência, o objetivo central desta dissertação é responder a seguinte pergunta: "Como uma análise de dados, feita utilizando um algoritmo preditivo, é impactada pelos dados ausentes?". Então, foi codificada uma versão do algoritmo Logistic Regression, para testar essas situações. Na qual foram implementados alguns cenários, que consistiu em aumentar progressivamente a omissão em dados de treino e de teste. Após codificar toda essa lógica, foram usados os dados da Flor de Íris, que é amplamente reconhecida no meio acadêmico-científico, para testar a solução e servir como demonstrativo da prova de conceito. Depois de executar o algoritmo, foram obtidos os resultados da Acurácia e da Matriz de Confusão da regressão em cada cenário. A partir da análise dos resultados, conclui-se que o aumento das omissões diminui a assertividade do algoritmo Logistic Regression utilizando-se o dataset Flor de Íris, quando comparada a Acurácia do cenário completo com o cenário de ausências em 60%. Contudo, não é em todas as situações que o acréscimo de incompletudes piorou o resultado. Logo, é difícil de afirmar que em todos os cenários, quanto maior o número de ausências pior é a qualidade da análise.
Title in English
Quantitative analysis of the impact of missing data.
Keywords in English
Data quality
Logistic regression
Missing data
Missing values
Abstract in English
Today Big Data is part of people's daily lives and are present in many items such as: virtual assistants, such as Siri and Alexa; autonomous cars; shopping recommendations; anti-fraud systems; applications in the health area, such as cardiac and step monitoring; etc. These new technologies make the people's daily life much easier, generate business and consequently produce a huge volume of data to be stored, analyzed and treated. Due to the large volume of data, problems also arise such as outliers, empty and replicated attributes, which characterize low quality of information. One of the most common types of low-quality information is missing data. This omission of data causes several problems like the reduction of statistical power, distortion of the estimate of parameters and reduction in the representativeness of the samples, which impact the analysis of the study. Most absences occur most commonly in surveys answered manually, transcriptions or annotations, in failure of sensors and in databases of systems that present some logic mistake. For this reason, they are very common in the daily lives of technology professionals, researchers and scientists, especially for those who work and process large volumes of data. Much of the recent work related to the topic of missing data focuses on how to treat or solve the missing and is not necessarily aimed at understanding the real impact of this omission. Consequently, the main objective of this dissertation is to answer the following question: "How is a data analysis, made by using a predictive algorithm, impacted by the missing data?". Then, a version of the Logistic Regression algorithm was coded to test these situations. In which some scenarios were implemented, which consisted of progressively increasing the omission in training and test data. After coding all this logic, was used Iris Flower dataset, which is widely recognized in the academicscientific environment, to test the solution and serve as a proof of concept. After executing the algorithm, the results of the Accuracy and Confusion Matrix of the regression were obtained in each scenario. From the analysis of the results, it is concluded that the increase in omissions decreases the assertiveness of the Logistic Regression algorithm using the Iris Flower dataset, when comparing the Accuracy of the complete scenario to the absence scenario by 60%. However, it is not in all situations that the addition of incompleteness worsened the result. Therefore, it is difficult to say that in all scenarios, the greater the number of absences, the worse the quality of the analysis.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2021-09-01
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.