• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
10.11606/T.41.2013.tde-28082013-094721
Document
Author
Full name
Daniele Yumi Sunaga de Oliveira
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Paulo, 2013
Supervisor
Committee
Bueno, Maria Rita dos Santos e Passos (President)
Setubal, João Carlos
Hashimoto, Ronaldo Fumio
Nievola, Júlio Cesar
Reis, Eduardo Moraes Rego
Title in Portuguese
Biologia computacional aplicada para a análise de dados em larga escala
Keywords in Portuguese
Dados em larga escala
Expressão gênica
Sequências genômicas
Abstract in Portuguese
A enorme quantidade de dados que vem sendo gerada por tecnologias modernas de biologia representam um grande desafio para áreas como a bioinformática. Há uma série de programas disponíveis para a análise destes dados, mas que nem sempre são compreendidos o suficiente para serem corretamente aplicados, ou ainda, há problemas que requerem o desenvolvimento de novas soluções. Neste trabalho, nós apresentamos a análise de dados de duas das principais fontes de dados em larga escala: microarrays e sequenciamento. Na primeira, avaliamos se a estatística do método Rank Products (RP) é adequada para a identificação de genes diferencialmente expressos em estudos de doenças complexas, cujo uma das características é a heterogeneidade genética entre indivíduos com o mesmo fenótipo. Na segunda, desenvolvemos uma ferramenta chamada hunT para buscar por genes alvos do fator de transcrição T - um importante marcador de mesoderma com papel chave no desenvolvimento de vertebrados -, através da identificação de sítios de ligação para o T em suas sequências reguladoras. O desempenho do RP foi testado usando dados simulados e dados reais de um estudo de fissura lábio-palatina não-sindrômica, de autismo e também de um estudo que avalia o efeito da privação do sono em humanos. Nossos resultados mostraram que o RP é uma solução eficiente para detectar genes consistentemente desregulados em somente um subgrupo de pacientes, que esta habilidade é mantida com poucas amostras, mas que o seu desempenho é prejudicado quando são analisados poucos genes. Obtivemos fortes evidências biológicas da eficiência do método nos estudos com dados reais através da identificação de genes e vias previamente associados às doenças e da validação de novos genes candidatos através da técnica de PCR quantitativo em tempo real. Já o programa hunT identificou 4.602 genes de camundongo com o sítio de ligação para o domínio do T, sendo alguns deles já demonstrados experimentalmente. Identificamos 32 destes genes com expressão alterada em um estudo onde avaliamos o transcriptoma da diferenciação in vitro de células tronco embrionárias de camundongo para mesoderma, sugerindo a participação destes genes neste processo sendo regulados pelo T
Title in English
Computational biology for high-through put data analysis
Keywords in English
Gene expression
Genome sequences
High-throughput data
Abstract in English
The large amount of data generated by modern technologies of biology provides a big challenge for areas such as bioinformatics. In order to analyze these data there are several computer programs available; however these are not always well understood enough to be correctly applied. Moreover, there are problems that require the development of new solutions. In this work, we present the data analysis of two main high-throughput data sources: microarrays and sequencing. Firstly, we evaluated whether the statistic of Rank Products method (RP) is suitable for the identification of differentially expressed genes in studies of complex diseases, which are characterized by the vast genetic heterogeneity among the individuals affected. Secondly, we developed a tool named hunT to search for target genes of T transcription factor - an important mesodermal marker that plays a key role in the vertebrate development -, by identifying binding sites for T in their regulatory sequences. The RP performance was tested using both simulated and real data from three different studies: non-syndromic cleft lip and palate, autism and sleep deprivation effect in Humans. Our results have shown that RP is an effective solution for the identification of consistently deregulated genes in a subgroup of patients, this ability is maintained even with few samples, however its performance is impaired when only few genes are analyzed. We have obtained strong biological of effectiveness of the method in the studies with real data by not only identifying genes and pathways previously associated with diseases but also corroborating the behavior of novel candidate genes with the real-time PCR technique. The hunT program has identified 4,602 mouse genes containing the binding site for the T domain, some of which have already been demonstrated experimentally. We identified 32 of these genes with altered expression in a study which evaluated the transcriptome of in vitro differentiation of mouse embryonic stem cells to mesoderm, suggesting the involvement of these genes in this process regulated by T
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2013-09-13
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
Centro de Informática de São Carlos
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2022. All rights reserved.