• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.55.2009.tde-19012010-103825
Document
Author
Full name
Caio Cesar Mori Carelo
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2009
Supervisor
Committee
Ciferri, Cristina Dutra de Aguiar (President)
Moreira, Jander
Traina Junior, Caetano
Title in Portuguese
Perseus:uma nova técnica para tratar árvores de sufixo persistentes
Keywords in Portuguese
Árvore de sufixo
Bioinformática
Seqüencia de nucleotídeos
Abstract in Portuguese
O avanço tecnológico dos laboratórios de biologia molecular tem proporcionado um grande aumento no volume de seqüências de nucleotídeos armazenadas em bancos de dados biológicos, introduzindo o desafio de pesquisar eficientemente estes dados. Neste contexto, a árvore de sufixo é um método de acesso utilizado por muitas aplicações que envolvem pesquisa em dados biológicos. Entretanto, o custo de construção das árvores de sufixo é alto devido ao tamanho da estrutura de indexação gerado e à necessidade da árvore de sufixo caber em memória principal para ser construída com complexidade linear em relação ao tempo. Esta dissertação propõe o Perseus, uma nova técnica para tratar árvores de sufixo persistentes. A técnica Perseus apresenta os seguintes diferenciais. Ela introduz uma abordagem que realiza a construção de árvores de sufixo persistentes cujos tamanhos podem exceder a capacidade da memória principal. Além disso, ela provê um algoritmo que constrói árvores de sufixo por meio do particionamento destas árvores somente quando necessário. Esta construção também permite que o usuário escolha quais subseqüências de uma seqüência devem ser indexadas, de acordo com os requisitos particulares de suas aplicações. Por fim, a técnica proposta também introduz um algoritmo de casamento exato que permite a busca por uma seqüência de consulta em árvores de sufixo que podem estar particionadas. A validação do Perseus foi realizada por meio de testes de desempenho considerando genomas de vários organismos, os quais possuem diferentes ordens de magnitude de tamanho. Os resultados obtidos foram comparados com a técnica Trellis+, a qual representa o estado da arte nesta linha de pesquisa. Os testes indicaram que o Perseus construiu árvores de sufixo mais rapidamente do que o Trellis+, reduzindo o tempo total gasto na construção em até 24%. Perseus também criou árvores de sufixo mais compactas, atingindo uma redução média de 27% no espaço de memória secundária utilizado. Já com relação ao tempo total gasto no processamento de consultas, Perseus sempre produziu os melhores resultados, respondendo consultas em média 49% mais rápido do que o seu principal concorrente. Com relação à indexação de subseqüências escolhidas pelo usuário, comparando os resultados obtidos com o Trellis+, os testes mostraram que Perseus proveu uma redução no tempo de construção de árvores de sufixo de 97% na média e uma redução no tempo gasto no processamento de consultas de genes de 93% na média
Title in English
Perseus: a novel technique to handle persistent suffix trees
Keywords in English
Bioinformatics
Nucleotides sequence
Suffix tree
Abstract in English
Due to the technological advances in molecular biology laboratories, biological databases are extremely voluminous and tend to become more voluminous as data on new genome organisms are available. This introduces the challenge of searching nucleotide sequences efficiently. The suffix tree is an access method used for several applications that search for these data. However, the cost of building suffix trees is high, since they are extremely large data structures and they should fit in the main memory to be constructed in linear time. In this masters thesis, we propose the Perseus, a novel technique that handles persistent suffix trees. The Perseus introduces the following distinctive good properties. It is based on an approach that constructs persistent suffix trees whose sizes may exceed the main memory capacity. Furthermore, it provides an algorithm that allows for users to indicate which substrings of the input string should be indexed, according to the requirements of their applications. Moreover, it proposes an extended exact matching algorithm that searches for a query string into suffix trees that may be partitioned. The Perseus was validated through performance tests using genomes of several organisms of different sizes. The results were compared with the Trellis+ technique, which represents the state-of-the-art in this field. The tests showed that the Perseus reduced the time spent on constructing suffix trees by 24%. The Perseus also constructed compacter suffix trees, providing an average reduction in the secondary memory storage of 27%. Furthermore, the Perseus reduced the time spent on query processing of nucleotide sequences by up to 49%. As for the functionality of indexing substrings according to the users requirements, the Perseus greatly improved the query performance in comparison to the Trellis+. The results showed that the Perseus reduced the time spent on constructing suffix trees by 97% on average and the time spent on query processing of genes by 93% on average
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Dissertacao.pdf (2.59 Mbytes)
Publishing Date
2010-01-19
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.