Disertación de Maestría
DOI
https://doi.org/10.11606/D.45.2019.tde-28092019-175959
Documento
Autor
Nombre completo
Bruno Tenório da Silveira Lopes
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2019
Director
Tribunal
Durham, Alan Mitchell (Presidente)
Kashiwabara, André Yoshiaki
Ortega, Jose Miguel
Título en portugués
Predição de genes ab initio combinada com informações de alinhamento
Palabras clave en portugués
Aprendizado de máquina
Bioinformática
Cadeia de Markov oculta generalizada
Modelos probabilísticos
Predição de genes
Resumen en portugués
Na Bioinformática, o campo de pesquisa de predição computacional de genes codificadores de proteínas é um dos mais desafiadores e não sofreu muitos avanços na última década. Há basicamente dois grupos de métodos para predição de genes: métodos ab initio e métodos extrínsecos. O grupo ab initio ou intrínseco reúne os programas que realizam a predição apenas utilizando como entrada a sequência alvo. Esse grupo foca na busca por estruturas gênicas baseadas em sinais biológicos e trechos conservados. O outro grupo, chamado de extrínseco, reúne os programas que necessitam de outras sequências (de referência), além da sequência alvo para realizar a predição por meio do alinhamento da sequência alvo contra sequências de referência. Há também abordagens de predição, chamadas de híbridas, que tentam unir os dois métodos de predição incorporando alinhamentos para aumentar a precisão dos preditores ab initio. Nesse trabalho desenvolvemos uma extensão do arcabouço probabilístico ToPS para implementar duas técnicas de abordagens híbridas de predição e avaliar seus benefícios e méritos relativos. Os resultados obtidos mostram um claro benefício da inclusão de alinhamentos de genomas na predição, e prós e contras da inclusão de mapeamentos de transcritos. Além disso, construímos um modelo genérico para incluir num preditor de genes informações probabilísticas externas. Esse modelo é implementado no ToPS e pode ser usado para desenvolver mais estratégias de predição de genes.
Título en inglés
Ab initio gene prediction combined with alignment information
Palabras clave en inglés
Bioinformatics
Gene prediction
Generalized hidden Markov model
Machine learning
Probabilistic models
Resumen en inglés
In Bioinformatics, the field of computational prediction of protein-coding genes is one of the most challenging and did not have many advances in the last decade. There are two main groups of methods for predicting genes: ab initio methods and extrinsic methods. The ab initio or intrinsic group includes the programs that perform the prediction using only the target sequence as input. This group focuses on the search for gene structures based on biological signals and preserved portions of the sequence. The other group, called extrinsic, consists of the programs that require other (reference) sequences in addition to the target sequence to perform the prediction by aligning the target sequence against reference sequences. There are also prediction approaches that attempt to join the two prediction methods, called the hybrid, incorporating alignments to increase the precision of the ab initio predictors. In this dissertation we developed an extension of the ToPS computational framework to implement two hybrid prediction techniques and assess their benefits and relative merits. The results obtained show a clear benefit from including genome alignments in the prediction and the pros and cons of using transcript mapping. Additionally, we have devised a generic model to include probabilistic extraneous information into a gene predictor. This model is implemented in ToPS and can be used to further develop gene prediction strategies.
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2019-12-02