Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.45.2019.tde-28092019-175959
Documento
Autor
Nome completo
Bruno Tenório da Silveira Lopes
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2019
Orientador
Banca examinadora
Durham, Alan Mitchell (Presidente)
Kashiwabara, André Yoshiaki
Ortega, Jose Miguel
Título em português
Predição de genes ab initio combinada com informações de alinhamento
Palavras-chave em português
Aprendizado de máquina
Bioinformática
Cadeia de Markov oculta generalizada
Modelos probabilísticos
Predição de genes
Resumo em português
Na Bioinformática, o campo de pesquisa de predição computacional de genes codificadores de proteínas é um dos mais desafiadores e não sofreu muitos avanços na última década. Há basicamente dois grupos de métodos para predição de genes: métodos ab initio e métodos extrínsecos. O grupo ab initio ou intrínseco reúne os programas que realizam a predição apenas utilizando como entrada a sequência alvo. Esse grupo foca na busca por estruturas gênicas baseadas em sinais biológicos e trechos conservados. O outro grupo, chamado de extrínseco, reúne os programas que necessitam de outras sequências (de referência), além da sequência alvo para realizar a predição por meio do alinhamento da sequência alvo contra sequências de referência. Há também abordagens de predição, chamadas de híbridas, que tentam unir os dois métodos de predição incorporando alinhamentos para aumentar a precisão dos preditores ab initio. Nesse trabalho desenvolvemos uma extensão do arcabouço probabilístico ToPS para implementar duas técnicas de abordagens híbridas de predição e avaliar seus benefícios e méritos relativos. Os resultados obtidos mostram um claro benefício da inclusão de alinhamentos de genomas na predição, e prós e contras da inclusão de mapeamentos de transcritos. Além disso, construímos um modelo genérico para incluir num preditor de genes informações probabilísticas externas. Esse modelo é implementado no ToPS e pode ser usado para desenvolver mais estratégias de predição de genes.
Título em inglês
Ab initio gene prediction combined with alignment information
Palavras-chave em inglês
Bioinformatics
Gene prediction
Generalized hidden Markov model
Machine learning
Probabilistic models
Resumo em inglês
In Bioinformatics, the field of computational prediction of protein-coding genes is one of the most challenging and did not have many advances in the last decade. There are two main groups of methods for predicting genes: ab initio methods and extrinsic methods. The ab initio or intrinsic group includes the programs that perform the prediction using only the target sequence as input. This group focuses on the search for gene structures based on biological signals and preserved portions of the sequence. The other group, called extrinsic, consists of the programs that require other (reference) sequences in addition to the target sequence to perform the prediction by aligning the target sequence against reference sequences. There are also prediction approaches that attempt to join the two prediction methods, called the hybrid, incorporating alignments to increase the precision of the ab initio predictors. In this dissertation we developed an extension of the ToPS computational framework to implement two hybrid prediction techniques and assess their benefits and relative merits. The results obtained show a clear benefit from including genome alignments in the prediction and the pros and cons of using transcript mapping. Additionally, we have devised a generic model to include probabilistic extraneous information into a gene predictor. This model is implemented in ToPS and can be used to further develop gene prediction strategies.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2019-12-02