• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.82.2019.tde-29102021-174335
Document
Author
Full name
Samuel Zanferdini Oliva
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2019
Supervisor
Committee
Felipe, Joaquim Cezar (President)
Bueno, Renato
Galvão, Maria Cristiane Barbosa
Murta Junior, Luiz Otavio
Ribeiro, Marcela Xavier
Santos, Marilde Terezinha Prado
Title in Portuguese
Métodos para melhorar a semântica em buscas por similaridade, diversidade e sumarização de dados baseados no conceito da caminhada do turista
Keywords in Portuguese
Amostragem de dados
Buscas por similaridade
Caminhada do turista
Diversificação de resultados de consultas
Recuperação da informação
Recuperação de imagens baseada em conteúdo
Sumarização de dados
Abstract in Portuguese
Devido ao grande aumento da quantidade e variedade de dados ocorrido recentemente, diversas abordagens buscando a eficiência para lidar com o armazenamento e a recuperação de dados têm sido propostas na literatura, dentre elas as que estudam recuperação baseada em similaridade e as que consideram a diversificação de resultados. Do mesmo modo, diferentes métodos têm sido propostos a fim de realizar a sumarização de dados, com a finalidade de selecionar amostras representativas das bases. Neste trabalho, métodos para buscas por similaridade, diversificação de consultas e sumarização de dados são propostos, implementados e avaliados. Esse desenvolvimento tem como referência a heurística da caminhada turista, a qual consiste de um caminhante percorrendo um conjunto de pontos dentro de um espaço multidimensional. Assim, são propostas três abordagens: a primeira consiste do método SimWalk, para realizar buscas por similaridade; a segunda proposta corresponde ao método DivWalk, cuja finalidade é construir conjuntos resultantes de buscas considerando elementos diversificados; a terceira apresenta o método SummarizationWalk, para realizar a sumarização de bases de dados, considerando o volume e a quantidade de elementos por agrupamentos de elementos de dados. As abordagens foram desenvolvidas e testadas com bases de dados artificiais e reais. Nos experimentos conduzidos, o SimWalk apresentou maior precisão, quando comparado com os métodos tradicionais de recuperação por similaridade. O DivWalk apresentou maiores variâncias nos resultados, demonstrando que este método produz uma melhor distribuição dos dados nas bases. O SummarizationWalk apresentou melhores resultados na recuperação de subconjuntos, considerando as métricas de elementos selecionados em relação ao volume e à quantidade de elementos por agrupamentos das bases. Os estudos aqui apresentados mostram que os métodos propostos para buscas por similaridade, diversificação de consultas e sumarização de dados representam uma otimização em relação ao estado da arte, consistindo, assim, de contribuições para a área de recuperação de dados.
Title in English
Methods to improve the semantics of similarity search, diversity and data summarization based on the tourist walk concept
Keywords in English
Content-based image retrieval
Data retrieval
Data sampling
Data summarization
Similarity query, Query result diversification
Tourist walk
Abstract in English
Due to the large increase in the amount of data that has occurred recently, several approaches seeking efficiency to deal with data storage and retrieval have been proposed in the literature, including those that study query by similarity and those that consider the diversification of query results. Similarly, different methods have been proposed in order to perform summarization to select representative samples of databases. In this work, methods for similarity, query diversification and data summarization are proposed, implemented and evaluated. This development has as reference the tourist walk heuristic, which consists of a walker going through a set of points within a multidimensional space. Hence, three approaches are proposed: the first consists of the SimWalk method to perform similarity searches; the second proposal corresponds to the DivWalk method whose purpose is to construct result sets from diversified search elements; the third presents the SummarizationWalk method for database summarization, considering the volume and amount of elements of data clusterings. The approaches were developed and evaluated with artificial and real databases. In the conducted experiments, SimWalk presented higher accuracy when compared to traditional similarity retrieval methods. DivWalk showed greater variances in the results, demonstrating that this method produces a better data distribution in the databases. SummarizationWalk presented better results in the retrieval of subsets, considering the metrics of selected elements in relation to volume and amount of elements by database clusters. The studies presented here show that the proposed methods for similarity search, query diversification and data summarization represent an optimization with respect to the state-of-the-art, thus consisting of contributions to the area of data retrieval.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2021-11-26
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.