• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.17.2023.tde-29062023-133316
Document
Auteur
Nom complet
Murilo Henrique Anzolini Cassiano
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
Ribeirão Preto, 2023
Directeur
Jury
Arruda Neto, Eurico de (Président)
Campos, Fabrício Souza
Silva Junior, Wilson Araújo da
Titre en portugais
Representações numéricas e técnicas livres de alinhamento de sequências como ferramentas de agrupamento não supervisionado: aplicações em filogenia de coronavírus e linhagens brasileiras de SARS-CoV-2
Mots-clés en portugais
Análise de sequências
Análise livre de alinhamento
Estudos filogenéticos
Representações numéricas de genomas
SARS-CoV-2
Resumé en portugais
A pandemia da SARS-CoV-2 se espalhou pelo mundo causando quase 700 milhões de casos confirmados, sendo 34 milhões apenas no Brasil. Os coronavírus têm um dos maiores genomas entre todos os vírus RNA e, embora codifiquem exonucleases corretoras de erros, ainda hoje, novas linhagens ainda emergem, criando uma diversidade significativa de genomas. Nesse sentido, os esforços para o rastreamento de linhagens emergentes de SARS-CoV-2 geraram um volume expressivo e sem precedentes de dados públicos referentes à sequências genômicas. Todavia, lidar com tamanha quantidade de dados com técnicas convencionais dependentes de alinhamento é impraticável computacionalmente. Visando lidar com grandes conjuntos de dados e, ao mesmo tempo, com algumas das limitações das técnicas baseadas em alinhamentos, diversas metodologias foram propostas para codificação numérica e subsequente comparação de distâncias evolutivas entre genomas completos. Apesar da diversidade de técnicas disponíveis, há uma escassez de comparações criteriosas das metodologias existentes. Neste sentido, a grande disponibilidade de sequências de SARS-CoV-2 oferece uma oportunidade para aplicação de representações numéricas de genomas completos desenvolvidas nos últimos anos com foco em comparação de sequências virais. Neste trabalho testamos as representações numéricas baseadas em K-mer: Triplet Frequency, K-mer Natural Vector, Fast Vector, e Magnus Genomic Representation com sequências de coronaviridae (curadas e publicadas) e aproximadamente 86 mil genomas sequenciados no Brasil, obtidos do banco de dados GISAID EpiCov. Para cada dataset, comparamos i) medidas que sumarizam características estruturais, ii) correlações cofenéticas e iii) distâncias, entre as árvores feitas com as distâncias euclidianas das representações numéricas e a árvore construída a partir de alinhamento múltiplo de sequências com conseguinte estimação filogenética por máxima-verossimilhança. Também avaliamos a capacidade de cada representação testada em carregar consigo informações biológicas sabidas das sequências, como grupo taxonômico ou linhagem viral, via técnicas de redução de dimensionalidade. Vimos que no geral todas as representações numéricas revelaram algum padrão biológico esperado para agrupamento dos genomas virais e, embora as técnicas aqui exploradas, juntamente com uma das melhores e mais acuradas ferramentas publicada para comparação de sequências livre de alinhamento falhem em recuperar características globais da árvore filogenética de SARS-CoV-2, vimos que seu uso como entrada para o algoritmo neighbor-joining resultou em árvores que mantém a estrutura local, sendo aptas para separação de linhagens virais. Esperamos que estes resultados, juntamente com os códigos construídos para implementar a metodologia possam servir como base tanto para o desenvolvimento de ferramentas como para melhoria das técnicas de comparações genômicas livres de alinhamento.
Titre en anglais
Numeric representations and alignment-free techniques for sequence clustering as tools for unsupervised grouping: applications in coronavirus phylogeny and Brazilian lineages of SARS-CoV-2
Mots-clés en anglais
Alignment-free analysis
Numerical representations of genomes
Phylogenetic studies
SARS-CoV-2
Sequence analysis
Resumé en anglais
The SARS-CoV-2 pandemic spread throughout the world causing nearly 700 million confirmed cases, with 34 million just in Brazil. Coronaviruses have one of the largest genomes among all RNA viruses, and although they encode error-correcting exonucleases, new lineages are still emerging, creating a significant diversity of genomes. In this sense, efforts to track emerging SARS-CoV-2 lineages have generated an unprecedented and substantial amount of public data regarding genomic sequences. However, dealing with such a large amount of data with conventional alignment-dependent techniques is computationally impractical. Aiming to deal with large datasets and, at the same time, with some of the limitations of alignment-based techniques, several methods have been proposed for numerical encoding and subsequent comparison of evolutionary distances between complete genomes. Despite the diversity of techniques available, there is a scarcity of rigorous comparisons of existing methods. In this sense, the large availability of SARS-CoV-2 sequences offers an opportunity for the application of numerical representations of complete genomes developed in recent years with a focus on viral sequence comparison. In this work, we tested the K-mer-based numerical representations: Triplet Frequency, K-mer Natural Vector, Fast Vector, and Magnus Genomic Representation with coronaviridae sequences (cured and published) and approximately 86 thousand sequenced genomes in Brazil, obtained from the GISAID EpiCov database. For each dataset, we compared i) measures that summarize structural characteristics, ii) cofeneic correlations, and iii) distances between the trees made with the Euclidean distances of the numerical representations and the tree built from multiple sequence alignment and subsequent phylogenetic estimation by maximum likelihood. We also evaluated the ability of each tested representation to carry biological information known from the sequences, such as taxonomic group or viral lineage, through dimensionality reduction techniques. We saw that overall all the numerical representations revealed some expected biological pattern for grouping viral genomes, and although the techniques explored here, along with one of the best and most accurate published tools for alignment-free sequence comparison, fail to recover global characteristics of the SARS-CoV-2 phylogenetic tree, we saw that its use as input to the neighbor-joining algorithm resulted in trees that maintain the local structure, being suitable for separating viral lineages. We hope that these results, along with the codes built to implement the methodology, can serve as a basis both for the development of tools and for the improvement of alignment-free genomic comparison techniques.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-07-04
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.