Machine learning em saúde e segurança do trabalhador: perspectivas, desafios e aplicações

Fernandes, Fernando Timoteo

doi:10.11606/T.6.2021.tde-27012022-140548

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.6.2021.tde-27012022-140548

Document

Doctoral Thesis

Author

Fernandes, Fernando Timoteo (Catálogo USP)

Full name

Fernando Timoteo Fernandes

Institute/School/College

Faculdade de Saúde Pública

Knowledge Area

Public Health

Date of Defense

2021-10-22

Published

São Paulo, 2021

Supervisor

Chiavegatto Filho, Alexandre Dias Porto (Catálogo USP)

Committee

Chiavegatto Filho, Alexandre Dias Porto (President)
Algranti, Eduardo
Santos, Hellen Geremias dos
Sato, Ana Paula Sayuri

Title in Portuguese

Machine learning em saúde e segurança do trabalhador: perspectivas, desafios e aplicações

Keywords in Portuguese

Aprendizado de Máquina
Diagnóstico
Prognóstico
Saúde do Trabalhador

Abstract in Portuguese

Algoritmos de machine learning têm impactado a área da saúde nos últimos anos. Muita dessa popularidade deve-se aos ganhos de performance preditiva em comparação aos modelos estatísticos tradicionais, já que estes algoritmos conseguem capturar relações não-lineares e complexas, além de permitirem o uso de diferentes tipos de dados. Esta pesquisa objetiva descrever as diferentes técnicas recentes de machine learning e como elas podem ser aplicadas na saúde e segurança do trabalhador (SST). Os resultados da tese estão organizados em três artigos científicos. No primeiro artigo, foi realizada uma revisão bibliográfica para entender o panorama de uso de machine learning na saúde pública e em SST. Foram identificadas e categorizadas aplicações de aprendizagem supervisionada e não-supervisionada, e os principais problemas de pesquisa correspondentes. No segundo artigo, foram aplicados algoritmos de aprendizagem supervisionada para predição de absenteísmo por doença e doença relacionada ao trabalho em professores da rede pública municipal do Estado de São Paulo entre 2014 a 2018 (n=174.294), usando como fonte de dados a Relação Anual de Informações Sociais (RAIS). Cinco algoritmos foram comparados de acordo com o valor da área abaixo da curva (AUC). Todos os algoritmos obtiveram AUROC superior a 0,76. O melhor algoritmo (redes neurais artificiais) obteve AUROC de 0,79, com acurácia de 71,52%, sensibilidade de 72,86% e especificidade de 70,52%. Foi possível realizar predições que forneceram estimativas de risco no ensino infantil, para subsidiar a prevenção de afastamento por morbidades em professores, utilizando dados públicos e anônimos. No terceiro e último artigo, foram desenvolvidos modelos preditivos para identificar, antecipadamente, trabalhadores com risco de diagnóstico positivo para doença pulmonar obstrutiva crônica (DPOC). O estudo utilizou dados da coorte prospectiva do UK Biobank, de indivíduos acompanhados desde 2006, filtrando aqueles que preencheram o questionário de histórico ocupacional (n=120.289). Desses, 1731 (1,4%) foram diagnosticados com DPOC. Ao todo, foram selecionadas 26 variáveis, entre dados demográficos, exames laboratoriais, hábitos e sintomas, para a construção de modelos generalistas para predição de DPOC. Além disso, foi selecionado um subconjunto de participantes (n=7.628) com histórico ocupacional na indústria da construção civil e na mineração com possível exposição a poeira de sílica, para desenvolver modelos especialistas. Desses, 237 (3,11%) tiveram diagnóstico de DPOC. O modelo generalista obteve AUROC de 0.845, e o modelo especialista obteve AUROC de 0.841. As cinco principais variáveis preditoras foram idade, tosse crônica, tabagismo, histórico de asma e expectoração. Os resultados mostram que é possível predizer risco individual de diagnóstico de DPOC na população geral e nos trabalhadores expostos a poeiras minerais utilizando variáveis comumente coletadas na atenção primária. Nesta tese, mostramos a viabilidade de uso de modelos preditivos na saúde do trabalhador tanto para prognóstico quanto para diagnóstico, com boa performance preditiva. Espera-se que este estudo possa contribuir para uma maior adoção de modelos preditivos por pesquisadores em SST, permitindo identificar antecipadamente trabalhadores expostos a riscos ambientais de forma a auxiliar o início de medidas preventivas que inibam ou minimizem os riscos.

Title in English

Machine learning in public health and occupational safety and health: perspectives, techniques and applications

Keywords in English

Diagnostic
Machine learning
Occupational Health
Prognosis

Abstract in English

Machine learning algorithms have gained prominence in the health area in recent years. Much of this popularity is due to predictive performance gains when compared to traditional statistical models, as these algorithms are able to capture non-linear relationships and to handle different types of data. This research aims to describe the different machine learning techniques and how these techniques can be applied in occupational safety and health (OSH). The results are organized into three scientific articles. In the first manuscript, a literature review was carried out to understand the panorama of machine learning use in public health and OSH. Supervised and unsupervised learning algorithms were identified and categorized, and main research problems were listed. In the second article, supervised learning algorithms were developed to predict absenteeism due to illness and work related illness in teachers from all public municipal schools in the State of São Paulo between 2014 and 2018 (n=174.294) available from the Relação Anual de Informações Sociais (RAIS). Five algorithms were compared according to the value of the area under the receiver operating characteristic curve (AUROC). All algorithms obtained AUROC greater than 0.76. The best algorithm (artificial neural networks) obtained an AUROC of 0.79, with an accuracy of 71.52%, sensitivity of 72.86% and specificity of 70.52%. It was possible to make assertive predictions, which provide estimates of risk, providing subsidies for preventing sick leave in teachers using public and anonymous data. In the third and last article, predictive models were developed to identify workers at risk of a positive diagnosis for chronic obstructive pulmonary disease (COPD). The study used data from the UK Biobank prospective cohort from individuals followed since 2006, filtering those who completed the occupational history questionnaire (n=120.294). Of these, 1731 (1.4%) had a positive diagnosis of COPD. In all, 26 variables were selected, including demographic data, laboratory tests, habits and symptoms, for the development of generalist models for the prediction of COPD. In addition, a subset of individuals (n=7628) with an occupational background in the construction and mining industry, with possible exposure to mineral dusts was selected to develop specialized models. Of these, 237 (3.11%) were diagnosed with COPD. The generalist model obtained AUROC of 0.845, and the specialist model, an AUC of 0.841. The five main predictive variables were age, chronic cough, smoking, earlier diagnosis of asthma and chronic sputum. The results show that it is possible to predict individual risk of COPD diagnosis in the general population and in workers exposed to silica dust using variables commonly collected in primary care. In this research, we showed the feasibility of using predictive models in worker health for both prognosis and diagnosis, with good predictive performance. We believe that this study can contribute to a greater adoption of predictive models by OSH researchers, allowing the early identification of workers exposed to risks and the adoption of preventive measures that inhibit or minimize risks.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

FernandesFT_DR_R.pdf (2.91 Mbytes)

Publishing Date

2022-01-31

Derived works

WARNING: Learn what derived works are clicking here.