Data science for epidemiology: a case study of dengue in Brazil.

Roster, Kirstin Ingrid Oliveira

doi:10.11606/T.55.2022.tde-27022023-142607

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Tese de Doutorado

DOI

https://doi.org/10.11606/T.55.2022.tde-27022023-142607

Documento

Tese de Doutorado

Autor

Roster, Kirstin Ingrid Oliveira (Catálogo USP)

Nome completo

Kirstin Ingrid Oliveira Roster

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2022-12-19

Imprenta

São Carlos, 2022

Orientador

Rodrigues, Francisco Aparecido (Catálogo USP)

Banca examinadora

Rodrigues, Francisco Aparecido (Presidente)
Connaughton, Colm Peter
Fontanari, Jose Fernando
Peron, Thomas Kauê Dal'Maso

Título em inglês

Data science for epidemiology: a case study of dengue in Brazil.

Palavras-chave em inglês

Causal inference
Dengue
Disease forecasting
Machine learning

Resumo em inglês

This thesis is a collection of studies on the application of data science to problems in dengue epidemiology. We leverage machine learning models together with methods from causal inference for two important public health objectives: (i) forecasting disease prevalence to anticipate outbreaks and allocate resources, and (ii) understanding disease drivers to develop effective interventions. Using diverse data on disease prevalence, climate, and human behavior, we demonstrate how machine learning can be applied in three different contexts: first, to develop accurate predictions of infections across Brazilian cities; second, to generalize predictions to new diseases; and finally, as an intermediate step for causal inference. In Chapter 2, we compare machine learning algorithms for dengue prediction and assess the value of causal feature selection. We find variation in the optimal predictors in national (domain-invariant) and single-city (domain-specific) settings. Decision tree ensemble models perform best at national scale. Causal feature selection performs best according to one of four error metrics, though it is not the optimal method across all cities in single-city forecasts. This result helps us better understand the potential within-domain cost in predictive performance of causally-informed models. In Chapter 3, we assess the generalizability of the dengue models developed in the prior chapter. Based on the hypothesis that diseases may share common time series characteristics, we test the effectiveness of knowledge transfer from endemic to novel diseases to improve predictions in low-data settings. We compare instance- and parameter-based transfer learning algorithms and evaluate performance on both synthetic and empirical data. Results suggest that transfer learning offers potential for early pandemic response and that the most predictive algorithm and transfer method depends on the similarity of the disease pairs. In Chapter 4, we consider the contribution of machine learning to causal inference, by examining the impact of the COVID-19 pandemic on dengue in Brazil. We estimate the gap between expected and observed dengue cases using an interrupted time series design. We also decompose the gap into the impacts of climate conditions, pandemic-induced changes in reporting, human susceptibility, and human mobility. We find that there is considerable variation across the country in both overall pandemic impact on dengue and the relative importance of individual drivers. This analysis helps shed light on the data gaps caused by the COVID-19 pandemic and more generally, on possible intervention targets to help control dengue in the future.

Título em português

Ciência de dados para epidemiologia: um estudo de caso da dengue no Brasil

Palavras-chave em português

Aprendizado de máquina
Dengue
Inferência causal
Previsão de doenças

Resumo em português

Esta tese é um conjunto de estudos sobre a aplicação da ciência de dados a problemas da epidemiologia da dengue. Alavancamos modelos de aprendizado de máquina juntamente com métodos de inferência causal para dois importantes objetivos de saúde pública: (i) prever a prevalência de doenças para antecipar surtos e alocar recursos e (ii) entender os causadores de doenças para desenvolver intervenções preventivas eficazes. Usando dados sobre a prevalência de doenças, condições climáticas e comportamento humano, demonstramos como o aprendizado de máquina pode ser aplicado em três contextos diferentes: (i) para desenvolver previsões precisas de infecções nas cidades brasileiras; (ii) para generalizar as previsões para novas doenças; e (iii) como um passo intermediário para a inferência causal. No Capítulo 2, comparamos algoritmos de aprendizado de máquina para previsão de dengue e avaliamos o valor da seleção de variáveis causais. O algoritmo ideal varia entre o contexto nacional (independente de domínio) e de cidade única (domínio específico). Os modelos de conjuntos de árvores de decisão têm melhor desempenho em escala nacional. A seleção de variáveis causais tem melhor desempenho de acordo com uma das quatro medidas de erro, embora não seja o método ideal em todas as cidades. Esse resultado nos ajuda a entender melhor o custo de modelos informados pelo relacionamento causal entre as variáveis. No Capítulo 3, avaliamos a generalização dos modelos desenvolvidos no capítulo anterior. Com base na hipótese de que doenças podem ter características de séries temporais em comum, testamos a eficácia da transferência de conhecimento de doenças endêmicas para doenças novas, para melhorar as previsões quando existem poucos dados para treinamento. Comparamos algoritmos de transferência de aprendizado baseados em instâncias e em parâmetros, e avaliamos o desempenho em dados empíricos e teóricos. Os resultados sugerem que a transferência de aprendizado oferece o potencial para responder a pandemias, e que o melhor algoritmo depende da semelhança dos pares de doenças. No Capítulo 4, consideramos a contribuição do aprendizado de máquina para a inferência causal, examinando o impacto da pandemia de COVID-19 na dengue no Brasil. Estimamos a diferença entre os casos de dengue esperados e os observados, usando um desenho de estudo de série temporal interrompida. Também separamos os impactos do clima, das mudanças na vigilância devido à pandemia, da suscetibilidade humana e da mobilidade. Descobrimos que há uma variação considerável em todo o país, tanto no impacto geral da pandemia quanto na importância relativa das causas principais. Essa análise ajuda a esclarecer as lacunas de dados causadas pela pandemia de COVID-19 e achar possíveis alvos de intervenção para controlar a dengue no futuro.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

KirstinIngridOliveiraRoster_DO_revisada.pdf (19.13 Mbytes)

Data de Publicação

2023-02-27

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.