• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.45.2020.tde-12032020-055952
Document
Auteur
Nom complet
Lucas Peinado Bruscato
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2020
Directeur
Jury
Leonardi, Florencia Graciela (Président)
Garcia, Nancy Lopes
Nakaguma, Marcos Yamada
Titre en portugais
Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
Mots-clés en portugais
Dados socioeconômicos
Processamento de linguagem natural
Random forest
Regressão linear
Web scraper
Xgboost
Resumé en portugais
A corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.
Titre en anglais
Prediction of negative polarity in audit reports using socioeconomic data
Mots-clés en anglais
Linear regression
Natural language processing
Random forest
Socioeconomic data
Web scraper
Xgboost
Resumé en anglais
Corruption in Brazil directly affects the well-being of citizens by diminishing public investment in health, education, infrastructure, security, housing, among other essential rights to life. The democratization of the internet and the evolution of data science allowed us to evaluate the relationship of administrative irregularities, in this case negative words, and changes in social indicators about municipalities. We developed a web scraper algorithm that automates the capture of CGU audit reports and analyzed the polarity of the words present in the reports separately. We obtained socioeconomic data from the IBGE census in two periods and created machine learning models to predict the negative polarity percentage by municipality based on IBGE data. To evaluate the quality of a complex model, it is important to have a simple model as a base performance parameter. We trained three models (linear regression, random forest and xgboost) on the created database. The main contributions of this work were the automated extraction of government data, finding statistical evidence of the relationship between reporting data and socioeconomic data from different sources and functional machine learning models for the proposed problem.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-08-11
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.