Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde

Borba, Mariane Furtado

doi:10.11606/T.6.2023.tde-05022024-163230

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.6.2023.tde-05022024-163230

Documento

Tesis Doctoral

Autor

Borba, Mariane Furtado (Catálogo USP)

Nombre completo

Mariane Furtado Borba

Instituto/Escuela/Facultad

Faculdade de Saúde Pública

Área de Conocimiento

Epidemiología

Fecha de Defensa

2023-05-19

Publicación

São Paulo, 2023

Director

Chiavegatto Filho, Alexandre Dias Porto (Catálogo USP)
Batista, André Filipe de Moraes - (Codirector) (Catálogo USP)

Tribunal

Chiavegatto Filho, Alexandre Dias Porto (Presidente)
Antunes, Jose Leopoldo Ferreira
Nunes, Bruno Pereira
Santos, Hellen Geremias dos

Título en portugués

Análise da generalização de algoritmos de machine learning e suas aplicações na otimização de decisões em saúde

Palabras clave en portugués

Decisões em Saúde
Generalização
Machine Learning
Modelos Preditivos

Resumen en portugués

A utilização de algoritmos de inteligência artificial tem crescido rapidamente nos últimos anos, aumentando o seu potencial de aplicação em saúde pública. Algoritmos de machine learning (ML) são capazes de auxiliar na predição de desfechos complexos e na tomada de decisões por parte dos profissionais da área da saúde. Esta tese tem como objetivo analisar a capacidade de generalização dos algoritmos na área da saúde e aplicar modelos de ML para predições utilizando dados tabulares frequentemente coletados nos sistemas de saúde. A tese será defendida sob a forma de três artigos científicos. O primeiro artigo realizou uma revisão sistemática da literatura sobre a capacidade de generalização de modelos de ML em saúde. Os resultados indicaram que, apesar de ainda limitada, a literatura sobre generalização em saúde está crescendo nos últimos anos em parte como uma demanda das próprias revistas científicas. O segundo artigo desenvolveu e avaliou a performance da validação externa de um algoritmo de ML no contexto da predição de risco de mortalidade neonatal. O modelo foi desenvolvido utilizando Extreme Gradient Boosting (XGB) em dados de São Paulo de 2012 a 2015, incluindo 807.932 nascidos vivos e 5.518 óbitos neonatais. Foi realizada a validação externa do algoritmo em 1.161 municípios brasileiros, incluindo todas as capitais de estado para o ano ele 2016, totalizando 2.848.052 nascidos vivos e 23.948 óbitos neonatais. Os resultados mostraram que os municípios que ofertam estruturas de maior complexidade obtiveram uma performance similar ou mesmo superior ao modelo base desenvolvido com dados do município de São Paulo. No terceiro e último artigo desta tese, foi realizada uma análise da aplicação da técnica de generalização conhecida como transfer learning nos dados da Rede IACOV-BR para predizer óbito entre pacientes internados por Covid-19 usando dados de prontuário de 16.236 pacientes de 18 hospitais brasileiros coletados no primeiro trimestre de 2020 durante o início da pandemia de Covid-19 no Brasil. A abordagem desse artigo propôs uma comparação entre uma nova solução capaz de predizer o progresso clínico dos pacientes com Covid- 19 versus a abordagem já aplicada para predições tabulares em saúde. Os resultados indicam que apesar de promissora, a técnica de transfer learning convencional não se mostrou superior aos resultados de performance obtidos localmente com os algoritmos de boosting utilizados para dados tabulares. Os resultados desta tese apontam para a importância da generalização dos algoritmos de ML em saúde, ao mesmo tempo que os desafios técnicos ainda persistem em relação à manutenção da performance preditiva nas diferentes localidades.

Título en inglés

Generalization analysis of machine learning algorithms and their applications in optimizing health decisions

Palabras clave en inglés

Generalization
Health Decisions
Machine Learning
Predictive Models

Resumen en inglés

The use of artificial intelligence algorithms has significantly increased in recent years, increasing their potential for application in public health. ML algorithms (ML) can assist in the prediction of complex outcomes and in decision-making by healthcare professionals. This thesis aims to analyze the algorithmic generalization capability in healthcare and apply ML models for the prediction of health outcomes from tabular data frequently collected in healthcare systems. The thesis will be defended as three scientific articles. The first article conducted a systematic literature review on the generalization capability of ML models in healthcare. The results indicated that, although still limited, the literature on generalization in healthcare has been growing in recent years, in part as demand from journals themselves. The second article evaluated the performance of external validation of an ML algorithm in the context of predicting neonatal mortality risk. The model was developed using Extreme Gradient Boosting (XGB) on São Paulo data from 2012 to 2015, including 807,932 live births and 5,518 neonatal deaths. External validation of the algorithm was performed in 1,161 Brazilian municipalities, including all state capitals in 2016, totaling 2,848,052 live births and 23,948 neonatal deaths. The results showed that municipalities offering more complex structures obtained similar or even superior performance to the base model developed with data from the municipality of São Paulo. In the third and final article of this thesis, an analysis of the application of the generalization technique known as transfer learning was performed on IACOV-BR Network data to predict death from Covid-19 using medical record data from 16,236 patients from 18 Brazilian hospitals collected in the first quarter of 2020 during the early Covid-19 pandemic in Brazil. The results indicate that, although promising, the conventional transfer learning technique did not prove superior to locally obtained performance results with traditional boosting algorithms. The approach of this article proposed a comparison between a new solution for predicting the clinical progress of Covid-19 patients versus the approach already applied for tabular predictions in healthcare. The results of this thesis point to the importance of the generalization of ML algorithms in healthcare, while technical challenges persist regarding the maintenance of predictive performance in different locations.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

BorbaMF_DR_R.pdf (2.35 Mbytes)

Fecha de Publicación

2024-02-05

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.