Dissertação de Mestrado
Documento
Dissertação de Mestrado
Autor
Nome completo
Gabriel Montenegro de Campos
Unidade da USP
Faculdade de Medicina de Ribeirão Preto
Área do Conhecimento
Data de Defesa
2025-04-25
Imprenta
Ribeirão Preto, 2025
Orientador
Banca examinadora
Slavov, Svetoslav Nanev (Presidente)
Tinós, Renato
Zaramela, Lívia Soares
Título em português
Aplicação de algoritmos de aprendizagem de máquina para identificação de vírus em dados provenientes da matéria escura de sequenciamento de última geração
Palavras-chave em português
Aprendizado de máquina, Bioinformática, Matéria escura, Metagenômica, Perfis proteicos
Resumo em português
Os métodos metagenômicos são ferramentas poderosas para a identificação de vírus emergentes pouco conhecidos ou inesperados. Com o avanço das tecnologias de sequenciamento de nova geração e dos classificadores taxonômicos, tornou-se possível associar sequências genéticas aos seus respectivos táxons. No entanto, uma grande parcela das leituras permanece não classificada, sendo denominada de matéria escura, em analogia ao termo da física. Essa fração não identificada representa um dos principais desafios para a compreensão completa do metagenoma. Este estudo teve como objetivo identificar o conteúdo viral em nível de família dentro das sequências não classificadas. Para isso, foram empregados algoritmos de aprendizado de máquina supervisionados baseados em árvores de decisão, treinados tanto dados genômicos de swab nasofaríngeo de pacientes pediátricos negativos para SARS-CoV-2 quanto com dados públicos do NCBI Virus. Os atributos utilizados foram baseadas nos perfis proteicos das sequências e em características intrinsecas a elas. Os classificadores Random Forest e eXtreme Gradient Boosting apresentaram o melhores desempenhos, obtendo as melhores métricas em todos os cenários testados. Além disso, a análise revelou que a matéria escura genômica contém sequências virais previamente não identificadas. Ao ser aplicada a uma amostra clínica de swab orofaringeo, evidenciou-se a presença de mais leituras virais da família Anelloviridae.
Título em inglês
Application of machine learning algorithms for virus identification in dark matter data from next-generation sequencing
Palavras-chave em inglês
Bioinformatics, Dark matter, Machine learning, Metagenomics, Protein profiles
Resumo em inglês
Metagenomic methods are powerful tools for identifying little-known or unexpected emerging viruses. With the advancement of next-generation sequencing technologies and taxonomic classifiers, it has become possible to associate genetic sequences with their respective taxa. However, a large portion of the reads remains unclassified, referred to as dark matter in analogy to the term used in physics. This unidentified fraction represents one of the main challenges in achieving a comprehensive understanding of the metagenome. This study aimed to identify viral content at the family level within unclassified sequences. To this end, supervised machine learning algorithms based on decision trees were employed, trained on both nasopharyngeal swab genomic data from pediatric patients negative for SARS-CoV-2 and public data from NCBI Virus. The selected features were based on the protein profiles of the sequences and their intrinsic characteristics. The Random Forest and eXtreme Gradient Boosting classifiers achieved the best performances, obtaining the highest metrics across all tested scenarios. Furthermore, the analysis revealed that genomic dark matter contains previously unidentified viral sequences. When applied to a clinical oropharyngeal swab sample from a pediatric patient with febrile neutropenia, the presence of a higher number of viral reads from the Anelloviridae family was observed.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2025-07-17
Trabalhos decorrentes
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.