• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.3.2021.tde-31082021-111051
Documento
Autor
Nombre completo
Debora Ribeiro Doimo de Campos
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2021
Director
Tribunal
Almeida Junior, Jorge Rady de (Presidente)
Cansado, Jacinto Carlos Ascencio
Oliveira, Adilson de
Título en portugués
Análise quantitativa do impacto da ausência de dados.
Palabras clave en portugués
Big data
Dados ausentes
Informação (Qualidade)
Regressão logística
Tecnologia da informação
Resumen en portugués
Hoje o Big Data já faz parte do cotidiano das pessoas e está em itens como: assistentes virtuais, Siri e Alexa; carros autônomos; recomendações de compras; sistemas antifraude; aplicações na área da saúde, como monitoramento cardíaco e de passos; etc. Essas novas tecnologias facilitam muito o dia a dia da população, geram negócios e consequentemente produzem um imenso volume de dados a serem armazenados, analisados e tratados. Com o grande volume de dados, surgem também problemas como outliers, atributos vazios e replicados, que caracterizam baixa qualidade da informação. Um dos tipos mais comuns de baixa qualidade da informação é ausência de dados. Essa falta de dados acarreta vários problemas, como a redução do poder estatístico, distorção da estimativa de parâmetros e redução na representatividade das amostras, que impactam a análise do estudo. A maioria das ausências acontece mais comumente em pesquisas respondidas manualmente, transcrições ou anotações, em falha de sensores e em bases de dados de sistemas que possuem algum equívoco de lógica. Por isso, são muito frequentes no dia a dia de profissionais de tecnologia, pesquisadores e cientistas, especialmente para aqueles que trabalham e processam grandes volumes de dados. Boa parte dos trabalhos recentes relacionados ao tema ausência de dados, focam em como tratar ou resolver a falta de dados e não necessariamente, é voltado a compreender o real impacto dessa omissão. Por consequência, o objetivo central desta dissertação é responder a seguinte pergunta: "Como uma análise de dados, feita utilizando um algoritmo preditivo, é impactada pelos dados ausentes?". Então, foi codificada uma versão do algoritmo Logistic Regression, para testar essas situações. Na qual foram implementados alguns cenários, que consistiu em aumentar progressivamente a omissão em dados de treino e de teste. Após codificar toda essa lógica, foram usados os dados da Flor de Íris, que é amplamente reconhecida no meio acadêmico-científico, para testar a solução e servir como demonstrativo da prova de conceito. Depois de executar o algoritmo, foram obtidos os resultados da Acurácia e da Matriz de Confusão da regressão em cada cenário. A partir da análise dos resultados, conclui-se que o aumento das omissões diminui a assertividade do algoritmo Logistic Regression utilizando-se o dataset Flor de Íris, quando comparada a Acurácia do cenário completo com o cenário de ausências em 60%. Contudo, não é em todas as situações que o acréscimo de incompletudes piorou o resultado. Logo, é difícil de afirmar que em todos os cenários, quanto maior o número de ausências pior é a qualidade da análise.
Título en inglés
Quantitative analysis of the impact of missing data.
Palabras clave en inglés
Data quality
Logistic regression
Missing data
Missing values
Resumen en inglés
Today Big Data is part of people's daily lives and are present in many items such as: virtual assistants, such as Siri and Alexa; autonomous cars; shopping recommendations; anti-fraud systems; applications in the health area, such as cardiac and step monitoring; etc. These new technologies make the people's daily life much easier, generate business and consequently produce a huge volume of data to be stored, analyzed and treated. Due to the large volume of data, problems also arise such as outliers, empty and replicated attributes, which characterize low quality of information. One of the most common types of low-quality information is missing data. This omission of data causes several problems like the reduction of statistical power, distortion of the estimate of parameters and reduction in the representativeness of the samples, which impact the analysis of the study. Most absences occur most commonly in surveys answered manually, transcriptions or annotations, in failure of sensors and in databases of systems that present some logic mistake. For this reason, they are very common in the daily lives of technology professionals, researchers and scientists, especially for those who work and process large volumes of data. Much of the recent work related to the topic of missing data focuses on how to treat or solve the missing and is not necessarily aimed at understanding the real impact of this omission. Consequently, the main objective of this dissertation is to answer the following question: "How is a data analysis, made by using a predictive algorithm, impacted by the missing data?". Then, a version of the Logistic Regression algorithm was coded to test these situations. In which some scenarios were implemented, which consisted of progressively increasing the omission in training and test data. After coding all this logic, was used Iris Flower dataset, which is widely recognized in the academicscientific environment, to test the solution and serve as a proof of concept. After executing the algorithm, the results of the Accuracy and Confusion Matrix of the regression were obtained in each scenario. From the analysis of the results, it is concluded that the increase in omissions decreases the assertiveness of the Logistic Regression algorithm using the Iris Flower dataset, when comparing the Accuracy of the complete scenario to the absence scenario by 60%. However, it is not in all situations that the addition of incompleteness worsened the result. Therefore, it is difficult to say that in all scenarios, the greater the number of absences, the worse the quality of the analysis.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2021-09-01
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2021. Todos los derechos reservados.