• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.41.2022.tde-09062022-181940
Document
Auteur
Nom complet
Gabriel Nassar Reich Goldstein
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2022
Directeur
Jury
Vibranovski, Maria Dulcetti (Président)
Carareto, Cláudia Márcia Aparecida
Koerich, Leonardo Barbosa
Nakaya, Helder Takashi Imoto
Titre en portugais
Identificação de genes novos de Drosophila utilizando machine learning
Mots-clés en portugais
Aprendizado de máquina
Genes novos
Genomas
Transcriptomas
Resumé en portugais
Genes novos são definidos por sua presença em um táxon e ausência em táxons irmãos. Estes genes possuem grande importância biológica e estão envolvidos em processos de alta pressão seletiva, sendo expressos em tecidos como cérebro e testículo. Há uma variedade de mecanismos genéticos que podem levar à geração de genes novos, como duplicações e retrotransposições por exemplo, mas a maioria dos genes novos é derivada de duplicações. As funções exatas destes genes nos organismos ainda estão sendo estudadas, mas alguns trabalhos já mostraram relação com resolução de conflitos sexuais, por exemplo. Apesar disto, existem uma série de características biológicas que são sabidamente diferentes entre genes novos e antigos. Um exemplo disso é o perfil de expressão destes grupos, já que genes novos se expressam majoritariamente na gametogênese masculina e genes antigos são expressos de maneira generalista. O principal método de datação de genes para identificação de genes novos utiliza sintenia, que é o fenômeno de conservação da ordem e conteúdo gênico de uma região no genoma que ocorre em espécies relacionadas, e parcimônia ao comparar genomas de espécies relacionadas para datar todos os genes de uma espécie focal. Apesar da precisão do método, ele é extremamente dependente da montagem e anotação do genoma de interesse, o que limita sua aplicação para espécies modelo que tem uma anotação manual e curada. Com estes fatos em mente, propomos neste trabalho um método de identificação de genes novos que utiliza informações biológicas para separar genes novos de antigos através do uso de machine learning. Os algoritmos de machine learning são aqueles capazes de mudar com experiência e são capazes de identificar padrões complexos e identificar classes a partir de uma diversidade de informações. Com isso, treinamos um modelo com o algoritmo de random forest na espécie modelo Drosophila melanogaster e obtivemos 0.508 de precision e 0.718 de recall com dados que geramos. Além disso, identificamos os 1523 genes novos de D. pseudoobscura utilizando o método já existente para que possamos utilizar esta espécie como segundo ponto de controle do nosso método.
Titre en anglais
Identifying Drosophila new genes using machine learning
Mots-clés en anglais
Genomes
Machine learning
New genes
Transcriptomes
Resumé en anglais
New genes are defined by their presence in a taxon and absence in sibling taxa. These genes have great biological importance and are involved in processes of high selective pressure, being expressed in tissues such as the brain and testis. There are a variety of genetic mechanisms that can lead to the generation of new genes, such as duplications and retrotranspositions for example, but most new genes are derived from duplications. The exact functions of these genes in organisms are still being studied, but some work has already shown a relationship with the resolution of sexual conflicts, for example. Despite this, there are a number of biological characteristics that are known to be different between new and old genes. An example of this is the expression profile of these groups, since new genes are mostly expressed in male gametogenesis and old genes are broadly expressed. The main gene dating method for identifying new genes uses synteny, which is the phenomenon of conservation of the order and gene content of a region in the genome that occurs in related species, and parsimony when comparing genomes of related species to date all genes of a focal species. Despite the accuracy of the method, it is extremely dependent on the assembly and annotation of the genome of interest, which limits its application to model species that have a manual and curated annotation. With these facts in mind, we propose in this work a method of identifying new genes that uses biological information to separate new and old genes through the use of machine learning. Machine learning algorithms are those able to change with experience and are able to identify complex patterns and identify classes from a variety of information. With this, we trained a model with the random forest algorithm in the model species Drosophila melanogaster and obtained 0.508 precision and 0.718 recall with generated data. In addition, we identified the 1523 new genes of D. pseudoobscura using the existing method so that we can use this species as a second control point for our method.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-07-22
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.