• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.6.2020.tde-14012021-112741
Document
Author
Full name
Joana Raquel Raposo dos Santos
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2020
Supervisor
Committee
Chiavegatto Filho, Alexandre Dias Porto (President)
Dias, Carlos Matias
Diaz Quijano, Fredi Alexander
Santos, Hellen Geremias dos
Title in Portuguese
Ciência de dados e politicas públicas de saúde: exemplos práticos
Keywords in Portuguese
Ciência de Dados
Machine Learning
Políticas Públicas
Abstract in Portuguese
Introdução: A ciência de dados é uma área do conhecimento impulsionada pela mudança do atual paradigma tecnológico e cientifico, que decorre do aumento do volume de dados, tipo, acesso, armazenamento e desenvolvimento computacional e tecnológico. Esse conhecimento tem permitido importantes avanços em vários setores, mas a contribuição da ciência de dados para as políticas públicas em saúde ainda encontra-se pouco explorada. Objetivo: Analisar se técnicas de ciência de dados, como algoritmos preditivos de inteligência artificial (machine learning), técnicas de clusterização de individuos e métodos causais para estudos observacionais podem contribuir para a área das políticas de saúde, identificando grupos-alvo para os quais programas e campanhas possam ser direcionados, permitindo uma alocação mais eficiente de recursos e contribuindo para a elaboração de medidas que auxiliem no desenho e avaliação de políticas públicas de saúde. Métodos: Foram utilizados dados do Departamento de Informática do Sistema Único de Saúde do Brasil (DATASUS) para caracterização sociodemográfica dos municípios brasileiros, e do Inquérito Nacional de Saúde de Portugal de 2014 para caracterizar a população residente em Portugal. Para a análise preditiva foram utilizados alguns dos algoritmos mais populares de machine learning, como regressão logística penalizada, random forest, gradient boosting trees e análises de agrupamento com componentes principais. Para a avaliação de um programa público de saúde (Mais Médicos) foram utilizados escores de propensão (propensity score) com pareamento. Resultados: Foram escritos um total de três artigos científicos, sendo que dois foram publicados e um encontra-se em revisão. O primeiro foi publicado na International Journal of Public Health, e trata-se de uma avaliação do Mais Médicos com métodos de escore de propensão. O escore permitiu um pareamento entre unidades municipais (n = 395) com uma boa performance, em que 86 das 97 covariáveis apresentaram um bom balanceamento (medido pela diferença média padronizada, inferior a 25%). O segundo artigo foi publicado na Health Policy and Technology e realizou uma análise de agrupamento de componentes principais para identificar grupos homogêneos entre indivíduos sem plano privado de saúde (n = 12.134). Foram identificados três agrupamentos de indivíduos (indivíduos de meia idade profissionalmente ativos, indivíduos envelhecidos com práticas saudáveis e aqueles psicologicamente vulneráveis), o que pode auxiliar na elaboração de políticas públicas direcionadas. O terceiro artigo encontra-se atualmente em avaliação e realizou uma análise preditiva de inteligência artificial (machine learning) para ausência laboral por motivos de doença com uma amostra populacional do Inquérito Nacional de Saúde (n=6.249), obtendo uma AUC de 0,67 pelo algoritmo de random forest. Conclusão: A ciência de dados pode ter um papel importante na melhoria da evidência em políticas públicas, especialmente no caso de superar dificuldades de abordagens mais tradicionais, como no estabelecimento de contrafactuais em estudos quase experimentais e por meio da realização de análises preditivas de machine learning para a alocação prioritária de recursos.
Title in English
Data science and public policies: pratical examples of application
Keywords in English
Data Science
Machine Learning
Public Policies
Abstract in English
Introduction: Data science is an area of knowledge that has followed the growth of a new technological and scientific paradigm. It results directly from the increase in the volume of data, type, access, storage and from the computational and technological development. This knowledge has allowed important advances in several areas, but the contribution of data science to public health policies is still scarcely explored. Objective: To analyze whether the use of data science tools can contribute to improve health policies. In particular, we will identify target groups (using supervised or unsupervised approaches) for which programs and campaigns can be directed, thus contributing to a more efficient allocation of resources and provide evidence that support the design and evaluation of public health programs. Methods: We used two different data sources: first, data from the Department of Informatics of the Brazilian Health System of Brasil (DATASUS) was collected to gather information regarding the sociodemographic profile of Brazilian municipalities; and second, the National Health Survey of Portugal in 2014 to gather data regarding Portuguese population. For the statistical analysis, the following algorithms were used: logistic regression, random forest, gradient boosting trees and a cluster analysis in the principal components. To evaluate a large Brazilian health program (Mais Médicos), we applied propensity score matching, and the score was estimated using logistic regression. Results: A total of three scientific articles were written. The first was published at the International Journal of Public Health and evaluated the causal effect of the Mais Médicos program. The score resulted in a successful pairing between municipalities (n = 395) of which 86 of the 97 covariates presented good balance (measured by a standardized mean difference lower than 25%). The second was published in Health Policy and Technology and aimed at identifying homogeneous groups among those who did not have a private health plan (n = 12.134). We used a cluster analysis with principal components and found three groups of individuals: professionally active middle aged individuals, healthy elderly individuals, and those psychologically vulnerable. The third article performed a predictive analysis to identify in advance individuals who are more prone to be absent from work due to illness. We used the National Health Survey (n = 6.249) and a random forest model with an area under the ROC curve of 0.67. Conclusion: Data science can play an important role in improving evidence in public policies, namely to overcome difficulties that more traditional approaches are not able to address efficiently. In particular, it can be helpful ine establishing counterfactuals in quasi-experimental studies and performing predictive analyzes for priority allocation of resources.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
SantosJRR_DR_R.pdf (8.44 Mbytes)
Publishing Date
2021-01-14
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2022. All rights reserved.