Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets

Amgarten, Deyvid Emanuel

doi:10.11606/T.95.2022.tde-17022022-091454

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.95.2022.tde-17022022-091454

Document

Doctoral Thesis

Author

Amgarten, Deyvid Emanuel (Catálogo USP)

Full name

Deyvid Emanuel Amgarten

E-mail

Institute/School/College

Interunidades em Bioinformática

Knowledge Area

Bio-informatics

Date of Defense

2022-01-28

Published

São Paulo, 2022

Supervisor

Setubal, João Carlos (Catálogo USP)
Silva, Aline Maria da - (Co-supervisor) (Catálogo USP)

Committee

Setubal, João Carlos (President)
Andreote, Fernando Dini
Costa, Anna Helena Reali
Rocha, Rafael Silva

Title in English

Machine learning prediction in genomic sequences of prokaryotic viruses from metagenomic datasets

Keywords in English

Host prediction
Machine learning
Metagenomics
Phage prediction
Phages
Prokaryotic viruses
Virology
Virus

Abstract in English

Environmental viruses are extremely diverse and abundant in the biosphere. Several studies have shown prokaryotic viruses (or simply phages) as major players in determining biogeochemical cycles in oceans as well as driving microbial diversification. Besides this ecological role, phages may also be used for clinical purposes since they can kill bacterial cells and terminate infections. A crucial step in this process is the isolation of new phages, which can target a specific bacterial pathogen. Thus, researchers employ screening techniques to find and isolate pathogen-specific phages from environmental samples, which are a rich source of new phages. However, this task remains mostly exploratory and laborious if the researcher has no detailed information about the sample and its potential viral diversity. Having this problem in mind, we propose the development of a bioinformatic workflow to identify genomic sequences belonging to phages in environmental datasets, as well as for host prediction of the identified phages based on their genomic sequences. To achieve this goal, we implemented a random forest classifier and created the tool named MARVEL (Metagenomic Analyses and Retrieval of Viral Elements), which is able to efficiently predict phage genomic sequences in bins generated from whole community metagenomic short reads. We also developed a toolkit, name vHULK (Viral Host Unveiling Kit), which can predict phages host given only their genome as input. vHULK presents higher accuracy than available tools and it can predict both host species and genus in a multiclass prediction setting. Data generated by the application of both tools in public and private composting metagenomic datasets is used for recovery, annotation, and characterization of phage diversity in composting environments. Both tools are publicly available through a GitHub repository: https://github.com/LaboratorioBioinformatica/.

Title in Portuguese

Predição em sequências de vírus de procariotos através da aplicação de técnicas de aprendizado de máquina em dados metagenômicos

Keywords in Portuguese

Aprendizado de máquina
Bacteriófagos
Fagos
Metagenômica
Predição de hospedeiro viral
Vírus
Vírus ambientais
Vírus de procariotos

Abstract in Portuguese

Vírus ambientais são extremamente diversos e abundantes na biosfera. Estudos têm demostrado que vírus que infectam procariotos (ou simplesmente fagos) são determinantes no direcionamento de ciclos biogeoquímicos em oceanos, além de influenciarem de forma significativa a diversificação de seus hospedeiros. Sem considerar esse papel ecológico, fagos também estão sendo utilizados para propósitos clínicos graças à habilidade de infectar bactérias e terminar infecções bacterianas. Um passo crucial para esta aplicação é o isolamento de fagos que tenham como alvo um determinado patógeno bacteriano de interesse. Para isso, pesquisadores geralmente recorrem a amostras ambientais num processo dispendioso de tentativa e erro de isolamento experimental. Ter informações importantes sobre a diversidade de fagos em uma amostra, assim como potenciais hospedeiros poderia ajudar neste processo. Sendo assim, nesta tese nós propomos o desenvolvimento de um pipeline de bioinformática para recuperação de genomas de fagos de amostras ambientais, assim como para predição de hospedeiros desses genomas. Para atingir esse objetivo, nós treinamos um classificador random forest para diferenciação de sequências de fagos e o implementamos na ferramenta chamada de MARVEL. Nós também desenvolvemos a ferramenta chamada vHULK, que é capaz de predizer hospedeiros bacterianos dada a sequência do genoma do fago. Ambas as ferramentas apresentam alta acurácia e performance quando comparadas com o estado da arte em cada problema de predição. Resultados gerados pela aplicação das ferramentas desenvolvidas nesta tese em datasets metagenômicos de compostagem e solo são apresentados como uma prova de conceito e estudo de caso. Ambas as ferramentas encontram-se disponíveis no repositório público: https://github.com/LaboratorioBioinformatica/.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

PhD_thesis_Deyvid_Amgarten_15112021_final_posdefesa.pdf (2.79 Mbytes)

Publishing Date

2022-03-15

Derived works

WARNING: Learn what derived works are clicking here.