Biologia computacional aplicada para a análise de dados em larga escala

Oliveira, Daniele Yumi Sunaga de

doi:10.11606/T.41.2013.tde-28082013-094721

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.41.2013.tde-28082013-094721

Document

Doctoral Thesis

Author

Oliveira, Daniele Yumi Sunaga de (Catálogo USP)

Full name

Daniele Yumi Sunaga de Oliveira

E-mail

Institute/School/College

Instituto de Biociências

Knowledge Area

Biology (Genetics)

Date of Defense

2013-04-16

Published

São Paulo, 2013

Supervisor

Bueno, Maria Rita dos Santos e Passos (Catálogo USP)
Hashimoto, Ronaldo Fumio - (Co-supervisor) (Catálogo USP)

Committee

Bueno, Maria Rita dos Santos e Passos (President)
Setubal, João Carlos
Hashimoto, Ronaldo Fumio
Nievola, Júlio Cesar
Reis, Eduardo Moraes Rego

Title in Portuguese

Biologia computacional aplicada para a análise de dados em larga escala

Keywords in Portuguese

Dados em larga escala
Expressão gênica
Sequências genômicas

Abstract in Portuguese

A enorme quantidade de dados que vem sendo gerada por tecnologias modernas de biologia representam um grande desafio para áreas como a bioinformática. Há uma série de programas disponíveis para a análise destes dados, mas que nem sempre são compreendidos o suficiente para serem corretamente aplicados, ou ainda, há problemas que requerem o desenvolvimento de novas soluções. Neste trabalho, nós apresentamos a análise de dados de duas das principais fontes de dados em larga escala: microarrays e sequenciamento. Na primeira, avaliamos se a estatística do método Rank Products (RP) é adequada para a identificação de genes diferencialmente expressos em estudos de doenças complexas, cujo uma das características é a heterogeneidade genética entre indivíduos com o mesmo fenótipo. Na segunda, desenvolvemos uma ferramenta chamada hunT para buscar por genes alvos do fator de transcrição T - um importante marcador de mesoderma com papel chave no desenvolvimento de vertebrados -, através da identificação de sítios de ligação para o T em suas sequências reguladoras. O desempenho do RP foi testado usando dados simulados e dados reais de um estudo de fissura lábio-palatina não-sindrômica, de autismo e também de um estudo que avalia o efeito da privação do sono em humanos. Nossos resultados mostraram que o RP é uma solução eficiente para detectar genes consistentemente desregulados em somente um subgrupo de pacientes, que esta habilidade é mantida com poucas amostras, mas que o seu desempenho é prejudicado quando são analisados poucos genes. Obtivemos fortes evidências biológicas da eficiência do método nos estudos com dados reais através da identificação de genes e vias previamente associados às doenças e da validação de novos genes candidatos através da técnica de PCR quantitativo em tempo real. Já o programa hunT identificou 4.602 genes de camundongo com o sítio de ligação para o domínio do T, sendo alguns deles já demonstrados experimentalmente. Identificamos 32 destes genes com expressão alterada em um estudo onde avaliamos o transcriptoma da diferenciação in vitro de células tronco embrionárias de camundongo para mesoderma, sugerindo a participação destes genes neste processo sendo regulados pelo T

Title in English

Computational biology for high-through put data analysis

Keywords in English

Gene expression
Genome sequences
High-throughput data

Abstract in English

The large amount of data generated by modern technologies of biology provides a big challenge for areas such as bioinformatics. In order to analyze these data there are several computer programs available; however these are not always well understood enough to be correctly applied. Moreover, there are problems that require the development of new solutions. In this work, we present the data analysis of two main high-throughput data sources: microarrays and sequencing. Firstly, we evaluated whether the statistic of Rank Products method (RP) is suitable for the identification of differentially expressed genes in studies of complex diseases, which are characterized by the vast genetic heterogeneity among the individuals affected. Secondly, we developed a tool named hunT to search for target genes of T transcription factor - an important mesodermal marker that plays a key role in the vertebrate development -, by identifying binding sites for T in their regulatory sequences. The RP performance was tested using both simulated and real data from three different studies: non-syndromic cleft lip and palate, autism and sleep deprivation effect in Humans. Our results have shown that RP is an effective solution for the identification of consistently deregulated genes in a subgroup of patients, this ability is maintained even with few samples, however its performance is impaired when only few genes are analyzed. We have obtained strong biological of effectiveness of the method in the studies with real data by not only identifying genes and pathways previously associated with diseases but also corroborating the behavior of novel candidate genes with the real-time PCR technique. The hunT program has identified 4,602 mouse genes containing the binding site for the T domain, some of which have already been demonstrated experimentally. We identified 32 of these genes with altered expression in a study which evaluated the transcriptome of in vitro differentiation of mouse embryonic stem cells to mesoderm, suggesting the involvement of these genes in this process regulated by T

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

Daniele_Sunaga_Oliveira.pdf (4.05 Mbytes)

Publishing Date

2013-09-13

Derived works

WARNING: Learn what derived works are clicking here.