Doctoral Thesis
DOI
https://doi.org/10.11606/T.5.2023.tde-22082023-142604
Document
Author
Full name
Danielle Cristina Fonseca Candian
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2023
Supervisor
Committee
Waitzberg, Dan Linetzky (President)
Campos, Fábio Guilherme Caserta Maryssael de
Jesus, Rosangela Passos de
Vivolo, Sandra Roberta Gouvea Ferreira
Title in Portuguese
Avaliação do potencial preditivo da microbiota intestinal associada a características fenotípicas para identificação de doenças multifatoriais
Keywords in Portuguese
16S rRNA
Árvores de Decisões
Enfermidades
Microbiota intestinal
Modelos de predição
Reprodutibilidade dos Resultados
Abstract in Portuguese
Introdução: A microbiota intestinal (MI) é um complexo conjunto de microrganismos, tão singular que tem sido comparado com a impressão digital do indivíduo. Em consideração com as variadas funções fisiológicas e patofisiológicas da MI, pesquisadores têm estudado, nas últimas duas décadas, a sua participação em diversos estados de doença, tendo em vista oportunidades de previsão e tratamento das distintas enfermidades. Entretanto, a baixa concordância entre estes estudos faz com que a real participação da MI na predição de doenças multifatoriais permaneça pouco esclarecida. Objetivo: Estabelecer modelos preditivos que integrem variáveis fenotípicas com táxons da microbiota intestinal para distinguir indivíduos sadios e enfermos. Metodologia: Indivíduos saudáveis e enfermos (202), provenientes da casuística de um estudo maior (VALIDYS), foram avaliados quanto a variáveis fenotípicas e composição da MI por meio de sequenciamento do gene 16S rRNA. As informações sobre características fenotípicas foram coletadas por meio de história clínica, consumo alimentar (três registros alimentares de 24h) e composição corpórea (bioimpedância elétrica). Os resultados da MI foram expressos em variantes de sequência de amplicon (ASVs). Diferenças na abundância de táxons bacterianos entre os grupos foram avaliadas por DESeq2 para a pré-seleção de táxons para compor modelos preditivos. A MI também foi testada por comparação geral entre todos os grupos, para obter o maior número de táxons relevantes que pudessem compor os modelos. A criação de modelos preditivos deu-se, a priori, para cada conjunto de dados quantitativos, qualitativos, e abundância de gêneros da microbiota. Toda a etapa de modelagem foi implementada em ambiente R com o algoritmo Random Forest. A performance de cada modelo foi avaliada pela sensibilidade e especificidade usando o conjunto de dados de teste. Resultados: 50 indivíduos sadios e 152 enfermos (portadores de doença de Crohn, retocolite ulcerativa, psoríase em placas, artrite reumatoide, lúpus eritematoso sistêmico, diabetes tipo 1 e tipo 2) compuseram a amostra. Diferenças das características fenotípicas foram identificadas entre os grupos e aquelas com relevância estatística foram pré-selecionadas para compor o modelo integrativo final. Diferenças ecológicas gerais da MI foram observadas apenas para o subgrupo de doença inflamatória intestinal. Foram selecionados 52 táxons bacterianos e todas as variáveis pré-selecionadas foram filtradas por Random Forest, aplicando 50 modelos, para identificar as 10 variáveis mais importantes em pelo menos 50% dos modelos. A avaliação da performance preditiva dos modelos deu-se pelas curvas ROC, criadas para mostrar a capacidade global dos modelos em preverem uma determinada doença. A análise do desempenho, entre os modelos para todas as doenças, apontou as melhores performances quando os dados microbianos e fenotípicos foram integrados. Conclusão: Nas condições da presente pesquisa conclui-se que existem marcadores taxonômicos pontuais que apresentaram abundância relativa diferente entre os grupos avaliados, porém isso não os torna, isoladamente, marcadores com potencial preditivo. O uso de reamostragens (bootstrap) deve ser uma ferramenta utilizada para minimizar o efeito da grande variabilidade observada entre estudos de MI e favorecer a reprodutibilidade dos resultados obtidos. Coletivamente, nossos dados sugerem que a utilização de marcadores microbianos isoladamente é pouco capaz de prever um desfecho de saúde. A adição de características fenotípicas com os resultados da composição da MI em um modelo preditivo integrado aumenta a capacidade de previsão de desfechos de saúde
Title in English
Evaluation of the predictive potential of the gut microbiota associated with phenotypic characteristics for the identification of multifactorial diseases
Keywords in English
16S rRNA
Decision Trees
Diseases
Gut microbiota
Prediction models
Reproducibility of Results
Abstract in English
Introduction: The gut microbiota (GM) is a complex set of microorganisms so unique that it has been compared to the fingerprint of the individual. In consideration of GM importance in physiological functions, researchers have studied its participation in several disease states in the last two decades with a view to opportunities for forecasting and treating different diseases. However, the low concordance between these studies means that the real participation of GM in the prediction of multifactorial diseases remains unclear. Aim: To establish predictive models that integrate phenotypic variables with taxa of the intestinal microbiota to distinguish healthy and sick individuals. Methodology: Healthy and sick individuals (202) from the sample of a larger study (VALIDYS) were evaluated for phenotypic variables and GM composition through sequencing of the 16S rRNA gene. Information on phenotypic characteristics was collected through clinical history, dietary intake (three 24-hour dietary records), and body composition (bioelectrical impedance). GM results were expressed as amplicon sequence variants (ASVs). Differences in the abundance of bacterial taxa between groups were evaluated by DESeq2 for the pre-selection of taxa to compose predictive models. GM was also tested by general comparison between all groups, to obtain the largest number of relevant taxa that could compose the models. The creation of predictive models took place, a priori, for each set of data quantitative, qualitative, and abundance of genera of the microbiota. The entire modeling step was implemented in the R environment with the Random Forest algorithm. The performance of each model was evaluated for sensitivity and specificity using the test dataset. Results: 50 healthy and 152 unhealthy individuals (with Crohn's disease, ulcerative colitis, plaque psoriasis, rheumatoid arthritis, systemic lupus erythematosus, type 1 and type 2 diabetes) comprised the sample. Differences in phenotypic characteristics were identified between groups, and those with statistical significance were pre-selected to compose the final integrative model. Overall ecological differences in GM were observed only for the inflammatory bowel disease subgroup. Fifty-two bacterial taxa were selected, and all pre-selected variables were filtered by Random Forest, applying 50 models, in order to identify variables that were among the 10 most important in at least 50% of the models. he performance of predictive models was evaluated using ROC curves, created to show the global ability of the models to predict a given disease using a set of data. The performance analysis, among models for all diseases, showed the best performances when microbial and phenotypic data were integrated. Conclusion: Under the conditions of this research, it is concluded that there are punctual taxonomic markers that showed different relative abundance between the evaluated groups, but this does not make them, in isolation, markers with predictive potential. The use of resampling (bootstrap) should be a tool used to minimize the effect of the great variability observed between GM studies and favor the reproducibility of the results obtained. Collectively, our data suggest that the use of microbial markers alone is poorly able to predict a health outcome. Adding phenotypic traits with GM composition results in an integrated predictive model that increases the predictability of health outcomes
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2023-08-30