• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.82.2019.tde-29102021-174335
Documento
Autor
Nombre completo
Samuel Zanferdini Oliva
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2019
Director
Tribunal
Felipe, Joaquim Cezar (Presidente)
Bueno, Renato
Galvão, Maria Cristiane Barbosa
Murta Junior, Luiz Otavio
Ribeiro, Marcela Xavier
Santos, Marilde Terezinha Prado
Título en portugués
Métodos para melhorar a semântica em buscas por similaridade, diversidade e sumarização de dados baseados no conceito da caminhada do turista
Palabras clave en portugués
Amostragem de dados
Buscas por similaridade
Caminhada do turista
Diversificação de resultados de consultas
Recuperação da informação
Recuperação de imagens baseada em conteúdo
Sumarização de dados
Resumen en portugués
Devido ao grande aumento da quantidade e variedade de dados ocorrido recentemente, diversas abordagens buscando a eficiência para lidar com o armazenamento e a recuperação de dados têm sido propostas na literatura, dentre elas as que estudam recuperação baseada em similaridade e as que consideram a diversificação de resultados. Do mesmo modo, diferentes métodos têm sido propostos a fim de realizar a sumarização de dados, com a finalidade de selecionar amostras representativas das bases. Neste trabalho, métodos para buscas por similaridade, diversificação de consultas e sumarização de dados são propostos, implementados e avaliados. Esse desenvolvimento tem como referência a heurística da caminhada turista, a qual consiste de um caminhante percorrendo um conjunto de pontos dentro de um espaço multidimensional. Assim, são propostas três abordagens: a primeira consiste do método SimWalk, para realizar buscas por similaridade; a segunda proposta corresponde ao método DivWalk, cuja finalidade é construir conjuntos resultantes de buscas considerando elementos diversificados; a terceira apresenta o método SummarizationWalk, para realizar a sumarização de bases de dados, considerando o volume e a quantidade de elementos por agrupamentos de elementos de dados. As abordagens foram desenvolvidas e testadas com bases de dados artificiais e reais. Nos experimentos conduzidos, o SimWalk apresentou maior precisão, quando comparado com os métodos tradicionais de recuperação por similaridade. O DivWalk apresentou maiores variâncias nos resultados, demonstrando que este método produz uma melhor distribuição dos dados nas bases. O SummarizationWalk apresentou melhores resultados na recuperação de subconjuntos, considerando as métricas de elementos selecionados em relação ao volume e à quantidade de elementos por agrupamentos das bases. Os estudos aqui apresentados mostram que os métodos propostos para buscas por similaridade, diversificação de consultas e sumarização de dados representam uma otimização em relação ao estado da arte, consistindo, assim, de contribuições para a área de recuperação de dados.
Título en inglés
Methods to improve the semantics of similarity search, diversity and data summarization based on the tourist walk concept
Palabras clave en inglés
Content-based image retrieval
Data retrieval
Data sampling
Data summarization
Similarity query, Query result diversification
Tourist walk
Resumen en inglés
Due to the large increase in the amount of data that has occurred recently, several approaches seeking efficiency to deal with data storage and retrieval have been proposed in the literature, including those that study query by similarity and those that consider the diversification of query results. Similarly, different methods have been proposed in order to perform summarization to select representative samples of databases. In this work, methods for similarity, query diversification and data summarization are proposed, implemented and evaluated. This development has as reference the tourist walk heuristic, which consists of a walker going through a set of points within a multidimensional space. Hence, three approaches are proposed: the first consists of the SimWalk method to perform similarity searches; the second proposal corresponds to the DivWalk method whose purpose is to construct result sets from diversified search elements; the third presents the SummarizationWalk method for database summarization, considering the volume and amount of elements of data clusterings. The approaches were developed and evaluated with artificial and real databases. In the conducted experiments, SimWalk presented higher accuracy when compared to traditional similarity retrieval methods. DivWalk showed greater variances in the results, demonstrating that this method produces a better data distribution in the databases. SummarizationWalk presented better results in the retrieval of subsets, considering the metrics of selected elements in relation to volume and amount of elements by database clusters. The studies presented here show that the proposed methods for similarity search, query diversification and data summarization represent an optimization with respect to the state-of-the-art, thus consisting of contributions to the area of data retrieval.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2021-11-26
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.