• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.95.2022.tde-17022022-091454
Documento
Autor
Nome completo
Deyvid Emanuel Amgarten
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2022
Orientador
Banca examinadora
Setubal, João Carlos (Presidente)
Andreote, Fernando Dini
Costa, Anna Helena Reali
Rocha, Rafael Silva
Título em inglês
Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets
Palavras-chave em inglês
Host prediction
Machine learning
Metagenomics
Phage prediction
Phages
Prokaryotic viruses
Virology
Virus
Resumo em inglês
Environmental viruses are extremely diverse and abundant in the biosphere. Several studies have shown prokaryotic viruses (or simply phages) as major players in determining biogeochemical cycles in oceans as well as driving microbial diversification. Besides this ecological role, phages may also be used for clinical purposes since they can kill bacterial cells and terminate infections. A crucial step in this process is the isolation of new phages, which can target a specific bacterial pathogen. Thus, researchers employ screening techniques to find and isolate pathogen-specific phages from environmental samples, which are a rich source of new phages. However, this task remains mostly exploratory and laborious if the researcher has no detailed information about the sample and its potential viral diversity. Having this problem in mind, we propose the development of a bioinformatic workflow to identify genomic sequences belonging to phages in environmental datasets, as well as for host prediction of the identified phages based on their genomic sequences. To achieve this goal, we implemented a random forest classifier and created the tool named MARVEL (Metagenomic Analyses and Retrieval of Viral Elements), which is able to efficiently predict phage genomic sequences in bins generated from whole community metagenomic short reads. We also developed a toolkit, name vHULK (Viral Host Unveiling Kit), which can predict phages host given only their genome as input. vHULK presents higher accuracy than available tools and it can predict both host species and genus in a multiclass prediction setting. Data generated by the application of both tools in public and private composting metagenomic datasets is used for recovery, annotation, and characterization of phage diversity in composting environments. Both tools are publicly available through a GitHub repository: https://github.com/LaboratorioBioinformatica/.
Título em português
Predição em sequências de vírus de procariotos através da aplicação de técnicas de aprendizado de máquina em dados metagenômicos
Palavras-chave em português
Aprendizado de máquina
Bacteriófagos
Fagos
Metagenômica
Predição de hospedeiro viral
Vírus
Vírus ambientais
Vírus de procariotos
Resumo em português
Vírus ambientais são extremamente diversos e abundantes na biosfera. Estudos têm demostrado que vírus que infectam procariotos (ou simplesmente fagos) são determinantes no direcionamento de ciclos biogeoquímicos em oceanos, além de influenciarem de forma significativa a diversificação de seus hospedeiros. Sem considerar esse papel ecológico, fagos também estão sendo utilizados para propósitos clínicos graças à habilidade de infectar bactérias e terminar infecções bacterianas. Um passo crucial para esta aplicação é o isolamento de fagos que tenham como alvo um determinado patógeno bacteriano de interesse. Para isso, pesquisadores geralmente recorrem a amostras ambientais num processo dispendioso de tentativa e erro de isolamento experimental. Ter informações importantes sobre a diversidade de fagos em uma amostra, assim como potenciais hospedeiros poderia ajudar neste processo. Sendo assim, nesta tese nós propomos o desenvolvimento de um pipeline de bioinformática para recuperação de genomas de fagos de amostras ambientais, assim como para predição de hospedeiros desses genomas. Para atingir esse objetivo, nós treinamos um classificador random forest para diferenciação de sequências de fagos e o implementamos na ferramenta chamada de MARVEL. Nós também desenvolvemos a ferramenta chamada vHULK, que é capaz de predizer hospedeiros bacterianos dada a sequência do genoma do fago. Ambas as ferramentas apresentam alta acurácia e performance quando comparadas com o estado da arte em cada problema de predição. Resultados gerados pela aplicação das ferramentas desenvolvidas nesta tese em datasets metagenômicos de compostagem e solo são apresentados como uma prova de conceito e estudo de caso. Ambas as ferramentas encontram-se disponíveis no repositório público: https://github.com/LaboratorioBioinformatica/.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2022-03-15
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.