Ciência de dados e politicas públicas de saúde: exemplos práticos

Santos, Joana Raquel Raposo dos

doi:10.11606/T.6.2020.tde-14012021-112741

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.6.2020.tde-14012021-112741

Documento

Tese de Doutorado

Autor

Santos, Joana Raquel Raposo dos (Catálogo USP)

Nome completo

Joana Raquel Raposo dos Santos

Unidade da USP

Faculdade de Saúde Pública

Área do Conhecimento

Saúde Pública

Data de Defesa

2020-08-19

Imprenta

São Paulo, 2020

Orientador

Chiavegatto Filho, Alexandre Dias Porto (Catálogo USP)

Banca examinadora

Chiavegatto Filho, Alexandre Dias Porto (Presidente)
Dias, Carlos Matias
Diaz Quijano, Fredi Alexander
Santos, Hellen Geremias dos

Título em português

Ciência de dados e politicas públicas de saúde: exemplos práticos

Palavras-chave em português

Ciência de Dados
Machine Learning
Políticas Públicas

Resumo em português

Introdução: A ciência de dados é uma área do conhecimento impulsionada pela mudança do atual paradigma tecnológico e cientifico, que decorre do aumento do volume de dados, tipo, acesso, armazenamento e desenvolvimento computacional e tecnológico. Esse conhecimento tem permitido importantes avanços em vários setores, mas a contribuição da ciência de dados para as políticas públicas em saúde ainda encontra-se pouco explorada. Objetivo: Analisar se técnicas de ciência de dados, como algoritmos preditivos de inteligência artificial (machine learning), técnicas de clusterização de individuos e métodos causais para estudos observacionais podem contribuir para a área das políticas de saúde, identificando grupos-alvo para os quais programas e campanhas possam ser direcionados, permitindo uma alocação mais eficiente de recursos e contribuindo para a elaboração de medidas que auxiliem no desenho e avaliação de políticas públicas de saúde. Métodos: Foram utilizados dados do Departamento de Informática do Sistema Único de Saúde do Brasil (DATASUS) para caracterização sociodemográfica dos municípios brasileiros, e do Inquérito Nacional de Saúde de Portugal de 2014 para caracterizar a população residente em Portugal. Para a análise preditiva foram utilizados alguns dos algoritmos mais populares de machine learning, como regressão logística penalizada, random forest, gradient boosting trees e análises de agrupamento com componentes principais. Para a avaliação de um programa público de saúde (Mais Médicos) foram utilizados escores de propensão (propensity score) com pareamento. Resultados: Foram escritos um total de três artigos científicos, sendo que dois foram publicados e um encontra-se em revisão. O primeiro foi publicado na International Journal of Public Health, e trata-se de uma avaliação do Mais Médicos com métodos de escore de propensão. O escore permitiu um pareamento entre unidades municipais (n = 395) com uma boa performance, em que 86 das 97 covariáveis apresentaram um bom balanceamento (medido pela diferença média padronizada, inferior a 25%). O segundo artigo foi publicado na Health Policy and Technology e realizou uma análise de agrupamento de componentes principais para identificar grupos homogêneos entre indivíduos sem plano privado de saúde (n = 12.134). Foram identificados três agrupamentos de indivíduos (indivíduos de meia idade profissionalmente ativos, indivíduos envelhecidos com práticas saudáveis e aqueles psicologicamente vulneráveis), o que pode auxiliar na elaboração de políticas públicas direcionadas. O terceiro artigo encontra-se atualmente em avaliação e realizou uma análise preditiva de inteligência artificial (machine learning) para ausência laboral por motivos de doença com uma amostra populacional do Inquérito Nacional de Saúde (n=6.249), obtendo uma AUC de 0,67 pelo algoritmo de random forest. Conclusão: A ciência de dados pode ter um papel importante na melhoria da evidência em políticas públicas, especialmente no caso de superar dificuldades de abordagens mais tradicionais, como no estabelecimento de contrafactuais em estudos quase experimentais e por meio da realização de análises preditivas de machine learning para a alocação prioritária de recursos.

Título em inglês

Data science and public policies: pratical examples of application

Palavras-chave em inglês

Data Science
Machine Learning
Public Policies

Resumo em inglês

Introduction: Data science is an area of knowledge that has followed the growth of a new technological and scientific paradigm. It results directly from the increase in the volume of data, type, access, storage and from the computational and technological development. This knowledge has allowed important advances in several areas, but the contribution of data science to public health policies is still scarcely explored. Objective: To analyze whether the use of data science tools can contribute to improve health policies. In particular, we will identify target groups (using supervised or unsupervised approaches) for which programs and campaigns can be directed, thus contributing to a more efficient allocation of resources and provide evidence that support the design and evaluation of public health programs. Methods: We used two different data sources: first, data from the Department of Informatics of the Brazilian Health System of Brasil (DATASUS) was collected to gather information regarding the sociodemographic profile of Brazilian municipalities; and second, the National Health Survey of Portugal in 2014 to gather data regarding Portuguese population. For the statistical analysis, the following algorithms were used: logistic regression, random forest, gradient boosting trees and a cluster analysis in the principal components. To evaluate a large Brazilian health program (Mais Médicos), we applied propensity score matching, and the score was estimated using logistic regression. Results: A total of three scientific articles were written. The first was published at the International Journal of Public Health and evaluated the causal effect of the Mais Médicos program. The score resulted in a successful pairing between municipalities (n = 395) of which 86 of the 97 covariates presented good balance (measured by a standardized mean difference lower than 25%). The second was published in Health Policy and Technology and aimed at identifying homogeneous groups among those who did not have a private health plan (n = 12.134). We used a cluster analysis with principal components and found three groups of individuals: professionally active middle aged individuals, healthy elderly individuals, and those psychologically vulnerable. The third article performed a predictive analysis to identify in advance individuals who are more prone to be absent from work due to illness. We used the National Health Survey (n = 6.249) and a random forest model with an area under the ROC curve of 0.67. Conclusion: Data science can play an important role in improving evidence in public policies, namely to overcome difficulties that more traditional approaches are not able to address efficiently. In particular, it can be helpful ine establishing counterfactuals in quasi-experimental studies and performing predictive analyzes for priority allocation of resources.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

SantosJRR_DR_R.pdf (8.44 Mbytes)

Data de Publicação

2021-01-14

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.