• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.41.2022.tde-09062022-181940
Documento
Autor
Nombre completo
Gabriel Nassar Reich Goldstein
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2022
Director
Tribunal
Vibranovski, Maria Dulcetti (Presidente)
Carareto, Cláudia Márcia Aparecida
Koerich, Leonardo Barbosa
Nakaya, Helder Takashi Imoto
Título en portugués
Identificação de genes novos de Drosophila utilizando machine learning
Palabras clave en portugués
Aprendizado de máquina
Genes novos
Genomas
Transcriptomas
Resumen en portugués
Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.
Título en inglés
Identifying Drosophila new genes using machine learning
Palabras clave en inglés
Genomes
Machine learning
New genes
Transcriptomes
Resumen en inglés
New genes are defined by their presence in a taxon and absence in sibling taxa. These genes have great biological importance and are involved in processes of high selective pressure, being expressed in tissues such as the brain and testis. There are a variety of genetic mechanisms that can lead to the generation of new genes, such as duplications and retrotranspositions for example, but most new genes are derived from duplications. The exact functions of these genes in organisms are still being studied, but some work has already shown a relationship with the resolution of sexual conflicts, for example. Despite this, there are a number of biological characteristics that are known to be different between new and old genes. An example of this is the expression profile of these groups, since new genes are mostly expressed in male gametogenesis and old genes are broadly expressed. The main gene dating method for identifying new genes uses synteny, which is the phenomenon of conservation of the order and gene content of a region in the genome that occurs in related species, and parsimony when comparing genomes of related species to date all genes of a focal species. Despite the accuracy of the method, it is extremely dependent on the assembly and annotation of the genome of interest, which limits its application to model species that have a manual and curated annotation. With these facts in mind, we propose in this work a method of identifying new genes that uses biological information to separate new and old genes through the use of machine learning. Machine learning algorithms are those able to change with experience and are able to identify complex patterns and identify classes from a variety of information. With this, we trained a model with the random forest algorithm in the model species Drosophila melanogaster and obtained 0.508 precision and 0.718 recall with generated data. In addition, we identified the 1523 new genes of D. pseudoobscura using the existing method so that we can use this species as a second control point for our method.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2022-07-22
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.