Ciência de dados e politicas públicas de saúde: exemplos práticos

Santos, Joana Raquel Raposo dos

doi:10.11606/T.6.2020.tde-14012021-112741

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.6.2020.tde-14012021-112741

Document

Thèse de Doctorat

Auteur

Santos, Joana Raquel Raposo dos (Catálogo USP)

Nom complet

Joana Raquel Raposo dos Santos

Unité de l'USP

Faculdade de Saúde Pública

Domain de Connaissance

Santé Publique

Date de Soutenance

2020-08-19

Editeur

São Paulo, 2020

Directeur

Chiavegatto Filho, Alexandre Dias Porto (Catálogo USP)

Jury

Chiavegatto Filho, Alexandre Dias Porto (Président)
Dias, Carlos Matias
Diaz Quijano, Fredi Alexander
Santos, Hellen Geremias dos

Titre en portugais

Ciência de dados e politicas públicas de saúde: exemplos práticos

Mots-clés en portugais

Ciência de Dados
Machine Learning
Políticas Públicas

Resumé en portugais

Introdução: A ciência de dados é uma área do conhecimento impulsionada pela mudança do atual paradigma tecnológico e cientifico, que decorre do aumento do volume de dados, tipo, acesso, armazenamento e desenvolvimento computacional e tecnológico. Esse conhecimento tem permitido importantes avanços em vários setores, mas a contribuição da ciência de dados para as políticas públicas em saúde ainda encontra-se pouco explorada. Objetivo: Analisar se técnicas de ciência de dados, como algoritmos preditivos de inteligência artificial (machine learning), técnicas de clusterização de individuos e métodos causais para estudos observacionais podem contribuir para a área das políticas de saúde, identificando grupos-alvo para os quais programas e campanhas possam ser direcionados, permitindo uma alocação mais eficiente de recursos e contribuindo para a elaboração de medidas que auxiliem no desenho e avaliação de políticas públicas de saúde. Métodos: Foram utilizados dados do Departamento de Informática do Sistema Único de Saúde do Brasil (DATASUS) para caracterização sociodemográfica dos municípios brasileiros, e do Inquérito Nacional de Saúde de Portugal de 2014 para caracterizar a população residente em Portugal. Para a análise preditiva foram utilizados alguns dos algoritmos mais populares de machine learning, como regressão logística penalizada, random forest, gradient boosting trees e análises de agrupamento com componentes principais. Para a avaliação de um programa público de saúde (Mais Médicos) foram utilizados escores de propensão (propensity score) com pareamento. Resultados: Foram escritos um total de três artigos científicos, sendo que dois foram publicados e um encontra-se em revisão. O primeiro foi publicado na International Journal of Public Health, e trata-se de uma avaliação do Mais Médicos com métodos de escore de propensão. O escore permitiu um pareamento entre unidades municipais (n = 395) com uma boa performance, em que 86 das 97 covariáveis apresentaram um bom balanceamento (medido pela diferença média padronizada, inferior a 25%). O segundo artigo foi publicado na Health Policy and Technology e realizou uma análise de agrupamento de componentes principais para identificar grupos homogêneos entre indivíduos sem plano privado de saúde (n = 12.134). Foram identificados três agrupamentos de indivíduos (indivíduos de meia idade profissionalmente ativos, indivíduos envelhecidos com práticas saudáveis e aqueles psicologicamente vulneráveis), o que pode auxiliar na elaboração de políticas públicas direcionadas. O terceiro artigo encontra-se atualmente em avaliação e realizou uma análise preditiva de inteligência artificial (machine learning) para ausência laboral por motivos de doença com uma amostra populacional do Inquérito Nacional de Saúde (n=6.249), obtendo uma AUC de 0,67 pelo algoritmo de random forest. Conclusão: A ciência de dados pode ter um papel importante na melhoria da evidência em políticas públicas, especialmente no caso de superar dificuldades de abordagens mais tradicionais, como no estabelecimento de contrafactuais em estudos quase experimentais e por meio da realização de análises preditivas de machine learning para a alocação prioritária de recursos.

Titre en anglais

Data science and public policies: pratical examples of application

Mots-clés en anglais

Data Science
Machine Learning
Public Policies

Resumé en anglais

Introduction: Data science is an area of knowledge that has followed the growth of a new technological and scientific paradigm. It results directly from the increase in the volume of data, type, access, storage and from the computational and technological development. This knowledge has allowed important advances in several areas, but the contribution of data science to public health policies is still scarcely explored. Objective: To analyze whether the use of data science tools can contribute to improve health policies. In particular, we will identify target groups (using supervised or unsupervised approaches) for which programs and campaigns can be directed, thus contributing to a more efficient allocation of resources and provide evidence that support the design and evaluation of public health programs. Methods: We used two different data sources: first, data from the Department of Informatics of the Brazilian Health System of Brasil (DATASUS) was collected to gather information regarding the sociodemographic profile of Brazilian municipalities; and second, the National Health Survey of Portugal in 2014 to gather data regarding Portuguese population. For the statistical analysis, the following algorithms were used: logistic regression, random forest, gradient boosting trees and a cluster analysis in the principal components. To evaluate a large Brazilian health program (Mais Médicos), we applied propensity score matching, and the score was estimated using logistic regression. Results: A total of three scientific articles were written. The first was published at the International Journal of Public Health and evaluated the causal effect of the Mais Médicos program. The score resulted in a successful pairing between municipalities (n = 395) of which 86 of the 97 covariates presented good balance (measured by a standardized mean difference lower than 25%). The second was published in Health Policy and Technology and aimed at identifying homogeneous groups among those who did not have a private health plan (n = 12.134). We used a cluster analysis with principal components and found three groups of individuals: professionally active middle aged individuals, healthy elderly individuals, and those psychologically vulnerable. The third article performed a predictive analysis to identify in advance individuals who are more prone to be absent from work due to illness. We used the National Health Survey (n = 6.249) and a random forest model with an area under the ROC curve of 0.67. Conclusion: Data science can play an important role in improving evidence in public policies, namely to overcome difficulties that more traditional approaches are not able to address efficiently. In particular, it can be helpful ine establishing counterfactuals in quasi-experimental studies and performing predictive analyzes for priority allocation of resources.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

SantosJRR_DR_R.pdf (8.44 Mbytes)

Date de Publication

2021-01-14

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.