• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.11.2021.tde-28052021-145456
Documento
Autor
Nome completo
Cristiane Hayumi Taniguti
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
Piracicaba, 2021
Orientador
Banca examinadora
Garcia, Antonio Augusto Franco (Presidente)
Coêlho, Alexandre Siqueira Guedes
Mollinari, Marcelo
Título em inglês
Building highly saturated genetic maps with OneMap 3.0: new approaches using workflows
Palavras-chave em inglês
Genotyping error
Haplotype
Linkage map
Reproducibility
Resumo em inglês
OneMap is an R package developed by members of Statistical Genetics Laboratory at ESALQ/USP (Brazil) released in 2008. It gained the attention of the scientific community for being one of the first software for building integrated genetics maps for outcrossing species. It is now highly used worldwide. However, it requires updates to deal with the new and abundant markers generated by high-throughput genotyping techniques. In this work, we made a major update of OneMap to version 3.0, which includes: higher speed of the genetic distance estimation; new methods for group and ordering markers; new quality diagnostic graphics tools; new features for making simulations; features to the conversion of VCF file with biallelic and multiallelic to OneMap input file; possibility of include error or genotype probability to estimate the genetic distances. Once OneMap was updated, we explored the steps upstream of the map building process, which has an impact on the resulted map quality. For that, we developed the Reads2Map workflows that perform the analysis, starting with empirical or simulated sequencing reads until the final linkage maps. Because the presented workflows are written with Workflow Description Language (WDL), they provide to users a findable, accessible, interoperable, and reusable code to build maps. The workflows compare the performance of software in the linkage map building: freebayes, GATK as SNP and genotype callers; updog, polyRAD, SuperMASSA as genotype caller; OneMap 3.0 and GUSMap as linkage map builders. We also developed the shiny Reads2MapApp app to evaluate graphically the work-flow's results. In the particular case of an example dataset from Populus tremula, we select the freebayes as SNP and genotype caller, and a global error probability of 5%, resulting in a map with 6936 markers and 3299.961 cM. After also using the workflows, we tested the impact of two of the major OneMap 3.0 updates in the linkage maps: the usage of genotype probabilities to estimate the genetic distances and the haplotype-based multiallelic markers from assembly-based SNP caller. Using simulated sequence reads data we could measure each SNP and genotype caller efficiency and its influences in the resulted map. The impact of the genotype probabilities was variable between software according to each simulated scenario. The results showed that OneMap 3.0 can build high-quality genetic maps if i) the genotype callers do not estimate wrongly many genotypes and a global error rate of 5% is applied for all genotypes or ii) if the genotype caller estimate more genotypes wrongly it also gives lower genotype probabilities for the wrong genotypes. Furthermore, the usage of haplotype-based markers reveals to increase the order and genetic distance quality. Once the procedures upstream the genetic map building have a strong influence in its quality, the combined usage of OneMap 3.0, Reads2Map and Reads2MapApp provide to users tools to build linkage maps since the sequencing reads, and also diagnostic graphics and measures to help them to choose the best combination of software and parameters.
Título em português
Construção de mapas genéticos altamente saturados com OneMap 3.0: novas abordagens usando workflows
Palavras-chave em português
Erro de genotipagem
Haplótipo
Mapa de ligação
Reprodutibilidade
Resumo em português
OneMap é um pacote do R desenvolvido por membros do Laboratório de Genética Estatística da ESALQ/USP (Brasil) lançado em 2008. Ele ganhou atenção da comunidade científica por ser um dos primeiros programas capazes de construir mapas genéticos integrados para populações F1 segregantes. Ele é hoje muito usado mundialmente. Entretanto, ele requer aprimoramentos para lidar com novos e abundantes marcadores provindos de técnicas de genotipagem baseada em sequenciamento. Neste trabalho, foi feito um aprimoramento significativo no OneMap para a versão 3.0, o qual inclui: maior velocidade na estimativa das distâncias genéticas; novos métodos de agrupamento e ordenamento dos marcadores; novas ferramentas gráficas para diagnóstico da qualidade dos mapas; novos recursos para realização de simulações; recursos para conversão de arquivos VCF com marcadores bialélicos e multialélicos para os arquivos de entrada do OneMap; possibilidade de incluir probabilidade de erro ou de genótipos para estimar as distâncias genéticas. Uma vez que o OneMap foi atualizado, também foram explorados passos anteriores à construção do mapa, os quais têm impacto na qualidade do mapa resultante. Para isso, foram desenvolvidos os workflows Reads2Map que realizam análises desde leituras de sequenciamento de dados empíricos ou simulados até mapas genéticos. Por ser escrito em Workflow Description Language (WDL), os workflows Reads2Map disponibilizam aos usuários códigos localizáveis, acessíveis, interoperáveis e reutilizáveis para a construção de mapas genéticos. Os workflows desenvolvidos são capazes de comparar o desempenho dos programas na construção de mapas genéticos: freebayes, GATK como identificadores de SNPs e genotipadores; updog, polyRAD e SuperMASSA como genotipadores; OneMap 3.0 e GUSMap para construção de mapas. Além disso, foi desenvolvido o aplicativo shiny Reads2MapApp para avaliação gráfica dos resultados dos workflows. No caso particular do conjunto de dados de Populus tremula, o freebayes foi selecionado como identificador de SNPs e genótipos, e uma probabilidade de erro global de 5%, resultando em um mapa com 6936 marcadores e 3299.96 cM. Em seguida, também utilizando os workflows, foi testado o impacto de duas das maiores melhorias do OneMap 3.0: o uso de probabilidades genotípicas para estimativa das distâncias genéticas; e o uso de marcadores multialélicos baseados em haplótipos provindos de identificadores de SNPs. Usando sequências de leituras simuladas foi possível medir a eficiência de cada identificador de SNP e genótipo e suas influências na construção do mapa. O impacto das probabilidades dos genótipos foi variável entre os programas de acordo com o cenário simulado. Os resultados mostraram que o OneMap 3.0 é capaz de construir mapas genéticos de alta qualidade se i) os genotipadores não cometerem muitos erros e a probabilidade de erro for de 5% para todos os genótipos ou ii) se o genotipador cometer mais erros de genotipagem e atribuir probabilidades menores para os genótipos errados. Além disso, o uso de marcadores multialélicos baseados em haplótipos revelou um aumento na qualidade de ordenamento e estimativa de distância genética. Uma vez que os processos anteriores à construção dos mapas têm grande impacto na sua qualidade, o uso combinado do OneMap 3.0, Reads2Map e Reads2MapApp, disponibiliza para os usuários ferramentas para construção de mapas genéticos desde leituras de sequenciamento, e também gráficos diagnóstico para auxílio na escolha da melhor combinação de programas e parâmetros.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2021-06-01
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.