Métodos estatísticos para a análise de dados de cDNA microarray em um ambiente computacional integrado

Esteves, Gustavo Henrique

doi:10.11606/T.95.2007.tde-03062007-210232

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.95.2007.tde-03062007-210232

Documento

Tesis Doctoral

Autor

Esteves, Gustavo Henrique (Catálogo USP)

Nombre completo

Gustavo Henrique Esteves

Dirección Electrónica

Instituto/Escuela/Facultad

Interunidades em Bioinformática

Área de Conocimiento

Bioinformática

Fecha de Defensa

2007-03-23

Publicación

São Paulo, 2007

Director

Neves, Eduardo Jordao (Catálogo USP)
Reis, Luis Fernando Lima - (Codirector) (Catálogo USP)

Tribunal

Neves, Eduardo Jordao (Presidente)
Almeida, Sergio Verjovski de
Cesar Junior, Roberto Marcondes
Garcia, Nancy Lopes
Nunes, Luiz Roberto

Título en portugués

Métodos estatísticos para a análise de dados de cDNA microarray em um ambiente computacional integrado

Palabras clave en portugués

Análise de Dados
Classificação de Grupos Gênicos
Microarray
Redes de Relevância

Resumen en portugués

Análise de expressão gênica em larga escala é de fundamental importância para a biologia molecular atual pois possibilita a medida dos níveis de expressão de milhares de genes simultaneamente, o que torna viável a realização de trabalhos voltados para biologia de sistemas (systems biology). Dentre as principais técnicas experimentais disponíveis para esta finalidade, a tecnologia de microarray tem sido amplamente utilizada. Este procedimento para medida de expressão gênica é bastante complexo e os dados obtidos são freqüentemente observacionais, o que dificulta a modelagem estatística. Não existe um protocolo padrão para a geração e avaliação desses dados, sendo portanto necessário buscar procedimentos de análise que sejam adequados para cada caso. Assim, os principais métodos matemáticos e estatísticos aplicados para a análise desses dados deveriam estar disponíveis de uma forma organizada, coerente e simples em um ambiente computacional que confira robustez, confiabilidade e reprodutibilidade às análises realizadas. Uma forma de garantir estas características é através da representação (e documentação) de todos os algoritmos utilizados na forma de um grafo direcionado e acíclico que descreva todo o conjunto de transformações, ou operações, aplicadas seqüencialmente ao conjunto de dados. De acordo com esta filosofia, um ambiente foi implementado neste trabalho incorporando diversos procedimentos disponíveis na literatura atual, além de outros que foram aprimorados ou propostos nesta tese. Dentre os métodos de análise já disponíveis que foram incorporados destacam-se aqueles para a construção de agrupamentos, busca de genes diferencialmente expressos e classificadores, construção de redes de relevância e classificação funcional de grupos gênicos. Além disso, o método de construção de redes de relevância foi revisto e aprimorado e um modelo estatístico para a classificação funcional de redes de regulação gênica foi proposto e implementado. Esses dois últimos métodos surgiram a partir de problemas biológicos para os quais não existiam procedimentos de análise adequados na literatura. Finalmente, são apresentados dois conjuntos de dados que foram analisados utilizando diversas ferramentas disponíveis neste ambiente computacional.

Título en inglés

Statistical methods for cDNA microarray data analysis in an integrated computational environment

Palabras clave en inglés

Classification of Gene Networks
Data Analysis
Microarray
Relevance Networks

Resumen en inglés

High throughput gene expression analysis has a great importance to molecular biology nowadays because it can measure expression profiles for hundreds of genes, and this turn possible studies focused in systems biology. Between the main experimental techniques available in this direction, the microarray technology has been widely used. This experimental procedure to quantify gene expression profiles is very complex and the data obtained is frequently observational, what difficult the statistical modelling. There is not a standard protocol for the generation and evaluation of microarray data, therefore it is necessary to search by adequate analysis methods for each case. Thus, the main mathematical and statistical methods applied to microarray data analysis would have to be available in an organized, coherent and simple way in a computational environment that confer robustness, reliability and reproducibility to the data analysis. One way to guarantee these characteristics is through the representation (and documentation) of all used algorithms as a directed and acyclic graph that describes the set of transformations, or operations, applied sequentially to the dataset. According to this philosophy, an environment was implemented in this work aggregating several data analysis procedures already available in the literature, beyond other methods that were improved or proposed in this thesis. Between the procedures already available that were incorporated we can distinguish that ones for cluster analysis, differentially expressed genes and classifiers search, construction of relevance networks and functional classification of gene groups. Moreover, the method for construction of relevance networks was revised and improved and an statistical model was proposed and implemented for the functional classification of gene regulation networks. The last two procedures was born from biological problems for which adequate data analysis methods didn?t exist in the literature. Finally, we presented two datasets that were evaluated using several data analysis procedures available in this computational environment.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

apendiceA.pdf (2.91 Mbytes)

apendiceB.pdf (342.71 Kbytes)

tese_final.pdf (3.95 Mbytes)

Fecha de Publicación

2007-10-15

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.