• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
10.11606/T.95.2015.tde-17112015-172846
Document
Author
Full name
Sérgio Nery Simões
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2015
Supervisor
Committee
Hashimoto, Ronaldo Fumio (President)
Cesar Junior, Roberto Marcondes
Maschietto, Mariana
Nakaya, Helder Takashi Imoto
Sato, João Ricardo
Title in Portuguese
Uma abordagem de integração de dados de redes PPI e expressão gênica para priorizar genes relacionados a doenças complexas
Keywords in Portuguese
Doenças complexas
Integração de dados
Interação proteína-proteína
Network Medicine
Priorização gênica
Abstract in Portuguese
Doenças complexas são caracterizadas por serem poligênicas e multifatoriais, o que representa um desafio em relação à busca de genes relacionados a elas. Com o advento das tecnologias de sequenciamento em larga escala do genoma e das medições de expressão gênica (transcritoma), bem como o conhecimento de interações proteína-proteína, doenças complexas têm sido sistematicamente investigadas. Particularmente, baseando-se no paradigma Network Medicine, as redes de interação proteína-proteína (PPI -- Protein-Protein Interaction) têm sido utilizadas para priorizar genes relacionados às doenças complexas segundo suas características topológicas. Entretanto, as redes PPI são afetadas pelo viés da literatura, em que as proteínas mais estudadas tendem a ter mais conexões, degradando a qualidade dos resultados. Adicionalmente, métodos que utilizam somente redes PPI fornecem apenas resultados estáticos e não-específicos, uma vez que as topologias destas redes não são específicas de uma determinada doença. Neste trabalho, desenvolvemos uma metodologia para priorizar genes e vias biológicas relacionados à uma dada doença complexa, através de uma abordagem integrativa de dados de redes PPI, transcritômica e genômica, visando aumentar a replicabilidade dos diferentes estudos e a descoberta de novos genes associados à doença. Após a integração das redes PPI com dados de expressão gênica, aplicamos as hipóteses da Network Medicine à rede resultante para conectar genes sementes (relacionados à doença, definidos a partir de estudos de associação) através de caminhos mínimos que possuam maior co-expressão entre seus genes. Dados de expressão em duas condições (controle e doença) são usados separadamente para obter duas redes, em que cada nó (gene) dessas redes é pontuado segundo fatores topológicos e de co-expressão. Baseado nesta pontuação, desenvolvemos dois escores de ranqueamento: um que prioriza genes com maior alteração entre suas pontuações em cada condição, e outro que privilegia genes com a maior soma destas pontuações. A aplicação do método a três estudos envolvendo dados de expressão de esquizofrenia recuperou com sucesso genes diferencialmente co-expressos em duas condições, e ao mesmo tempo evitou o viés da literatura. Além disso, houve uma melhoria substancial na replicação dos resultados pelo método aplicado aos três estudos, que por métodos convencionais não alcançavam replicabilidade satisfatória.
Title in English
An integrative approach combining PPI networks and gene expression to prioritize genes related to complex diseases
Keywords in English
Complex diseases
Data integration
Gene prioritization
Network Medicine
Protein-protein interaction
Abstract in English
Complex diseases are characterized as being poligenic and multifactorial, so this poses a challenge regarding the search for genes related to them. With the advent of high-throughput technologies for genome sequencing and gene expression measurements (transcriptome), as well as the knowledge of protein-protein interactions, complex diseases have been sistematically investigated. Particularly, Protein-Protein Interaction (PPI) networks have been used to prioritize genes related to complex diseases according to its topological features. However, PPI networks are affected by ascertainment bias, in which the most studied proteins tend to have more connections, degrading the quality of the results. Additionally, methods using only PPI networks can provide just static and non-specific results, since the topologies of these networks are not specific of a given disease. In this work, we developed a methodology to prioritize genes and biological pathways related to a given complex disease, through an approach that integrates data from PPI networks, transcriptomics and genomics, aiming to increase replicability of different studies and to discover new genes associated to the disease. The methodology integrates PPI network and gene expression data, and then applies the Network Medicine Hypotheses to the resulting network in order to connect seed genes (obtained from association studies) through shortest paths possessing larger coexpression among their genes. Gene expression data in two conditions (control and disease) are used to obtain two networks, where each node (gene) in these networks is rated according to topological and coexpression aspects. Based on this rating, we developed two ranking scores: one that prioritizes genes with the largest alteration between their ratings in each condition, and another that favors genes with the greatest sum of these scores. The application of this method to three studies involving schizophrenia expression data successfully recovered differentially co-expressed gene in two conditions, while avoiding the ascertainment bias. Furthermore, when applied to the three studies, the method achieved a substantial improvement in replication of results, while other conventional methods did not reach a satisfactory replicability.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
tese.pdf (4.00 Mbytes)
Publishing Date
2015-11-18
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
Centro de Informática de São Carlos
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2022. All rights reserved.