Métodos Bayesianos aplicados em taxonomia molecular

Villanueva Talavera, Edwin Rafael

doi:10.11606/D.18.2007.tde-03102007-105125

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.18.2007.tde-03102007-105125

Documento

Disertación de Maestría

Autor

Villanueva Talavera, Edwin Rafael (Catálogo USP)

Nombre completo

Edwin Rafael Villanueva Talavera

Dirección Electrónica

Instituto/Escuela/Facultad

Escola de Engenharia de São Carlos

Área de Conocimiento

Procesamiento de Señales de Instrumentación

Fecha de Defensa

2007-08-31

Publicación

São Carlos, 2007

Director

Maciel, Carlos Dias (Catálogo USP)

Tribunal

Maciel, Carlos Dias (Presidente)
Hruschka Junior, Estevam Rafael
Oliveira, Vilma Alves de

Título en portugués

Métodos Bayesianos aplicados em taxonomia molecular

Palabras clave en portugués

Agrupamento
Agrupamento hierárquico
Modelos gráficos probabilísticos
Modelos probabilísticos
Taxonomia molecular

Resumen en portugués

Neste trabalho são apresentados dois métodos de agrupamento de dados visados para aplicações em taxonomia molecular. Estes métodos estão baseados em modelos probabilísticos, o que permite superar alguns problemas apresentados nos métodos não probabilísticos existentes, como a dificuldade na escolha da métrica de distância e a falta de tratamento e aproveitamento do conhecimento a priori disponível. Os métodos apresentados combinam por meio do teorema de Bayes a informação extraída dos dados com o conhecimento a priori que se dispõe, razão pela qual são denominados métodos Bayesianos. O primeiro método, método de agrupamento hierárquico Bayesiano, está baseado no algoritmo HBC (Hierarchical Bayesian Clustering). Este método constrói uma hierarquia de partições (dendrograma) baseado no critério da máxima probabilidade a posteriori de cada partição. O segundo método é baseado em um tipo de modelo gráfico probabilístico conhecido como redes Gaussianas condicionais, o qual foi adaptado para problemas de agrupamento. Ambos métodos foram avaliados em três bancos de dados donde se conhece a rótulo da classe. Os métodos foram usados também em um problema de aplicação real: a taxonomia de uma coleção brasileira de estirpes de bactérias do gênero Bradyrhizobium (conhecidas por sua capacidade de fixar o 'N IND.2' do ar no solo). Este banco de dados é composto por dados genotípicos resultantes da análise do RNA ribossômico. Os resultados mostraram que o método hierárquico Bayesiano gera dendrogramas de boa qualidade, em alguns casos superior que o melhor dos algoritmos hierárquicos analisados. O método baseado em redes gaussianas condicionais também apresentou resultados aceitáveis, mostrando um adequado aproveitamento do conhecimento a priori sobre as classes tanto na determinação do número ótimo de grupos, quanto no melhoramento da qualidade dos agrupamentos.

Título en inglés

Bayesian methods applied in molecular taxonomy

Palabras clave en inglés

Clustering
Hierarchical clustering
Molecular taxonomy
Probabilistic graphical models
Probabilistic models

Resumen en inglés

In this work are presented two clustering methods thought to be applied in molecular taxonomy. These methods are based in probabilistic models which overcome some problems observed in traditional clustering methods such as the difficulty to know which distance metric must be used or the lack of treatment of available prior information. The proposed methods use the Bayes theorem to combine the information of the data with the available prior information, reason why they are called Bayesian methods. The first method implemented in this work was the hierarchical Bayesian clustering, which is an agglomerative hierarchical method that constructs a hierarchy of partitions (dendogram) guided by the criterion of maximum Bayesian posterior probability of the partition. The second method is based in a type of probabilistic graphical model knows as conditional Gaussian network, which was adapted for data clustering. Both methods were validated in 3 datasets where the labels are known. The methods were used too in a real problem: the clustering of a brazilian collection of bacterial strains belonging to the genus Bradyrhizobium, known by their capacity to transform the nitrogen ('N IND.2') of the atmosphere into nitrogen compounds useful for the host plants. This dataset is formed by genetic data resulting of the analysis of the ribosomal RNA. The results shown that the hierarchical Bayesian clustering method built dendrograms with good quality, in some cases, better than the other hierarchical methods. In the method based in conditional Gaussian network was observed acceptable results, showing an adequate utilization of the prior information (about the clusters) to determine the optimal number of clusters and to improve the quality of the groups.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

Defesa_Edwin_final.pdf (1.57 Mbytes)

Fecha de Publicación

2007-10-19

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.