Métodos Bayesianos aplicados em taxonomia molecular

Villanueva Talavera, Edwin Rafael

doi:10.11606/D.18.2007.tde-03102007-105125

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.18.2007.tde-03102007-105125

Documento

Dissertação de Mestrado

Autor

Villanueva Talavera, Edwin Rafael (Catálogo USP)

Nome completo

Edwin Rafael Villanueva Talavera

E-mail

Unidade da USP

Escola de Engenharia de São Carlos

Área do Conhecimento

Processamento de Sinais de Instrumentação

Data de Defesa

2007-08-31

Imprenta

São Carlos, 2007

Orientador

Maciel, Carlos Dias (Catálogo USP)

Banca examinadora

Maciel, Carlos Dias (Presidente)
Hruschka Junior, Estevam Rafael
Oliveira, Vilma Alves de

Título em português

Métodos Bayesianos aplicados em taxonomia molecular

Palavras-chave em português

Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular

Resumo em português

Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o 'N IND.2' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos.

Título em inglês

Bayesian methods applied in molecular taxonomy

Palavras-chave em inglês

Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models

Resumo em inglês

In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen ('N IND.2') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Defesa_Edwin_final.pdf (1.57 Mbytes)

Data de Publicação

2007-10-19

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.