• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2021.tde-13092021-140800
Document
Auteur
Nom complet
Lucas Santiago Rodrigues
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2021
Directeur
Jury
Traina Junior, Caetano (Président)
Fileto, Renato
Hara, Carmem Satie
Sousa, Elaine Parros Machado de
Titre en portugais
Explorando Espaços Métricos Correlacionados em Consultas por Similaridade sobre Bases de Dados Incompletos
Mots-clés en portugais
Consultas por similaridade
Correlação de espaços métricos
Dados complexos
Dados faltantes
Resumé en portugais
O crescente avanço na geração de dados advindos de várias fontes, tornou necessário o desenvolvimento de métodos de apoio aos processos de gerenciamento de grandes quantidades de dados complexos, como imagens, vídeos e áudios. Entretanto, a ocorrência de falhas durante os processos de coleta e armazenamento dos dados devido a diversas causas resultam na incompletude dos bancos de dados, afetando negativamente a execução de consultas por similaridade em inúmeras tarefas de recuperação de informação. Especificamente em consultas por similaridade, as funções de distâncias tradicionais, como a Euclidiana, não medem a dissimilaridade entre pares de atributos com valores faltantes. Abordagens existentes na literatura lidam com o problema de bases de dados incompletos por meio do descarte de tuplas com valores faltantes, a imputação de valores por meio de várias heurísticas e a indexação de bases de dados incompletos. No entanto, a aplicação do descarte de dados pode ocasionar a redução significativa do conjunto de dados, imputações de valores podem introduzir distorções no conjunto de dados e a indexação de dados oferece tratamentos específicos ao tratamento de dados faltante e muitas vezes custoso. O objetivo deste trabalho consiste em extrair informações intrínsecas dos dados para auxiliar na execução de consultas por similaridade sobre bases incompletas, sem o descarte de dados e nem a utilização de um método de imputação de valores. Nesse contexto, este trabalho de mestrado propõe o método SOLID (Search Over Correlated and Incomplete Data), que utiliza a correlação entre pares de espaços métricos definidos por um conjunto de representações para gerar fatores de compatibilidade a partir da identificação de atributos complexos mais correlacionados com relação às ocorrências de objetos com valores faltantes. As consultas por similaridade são executadas por meio de uma função de distância, cuja construção inclui propriedades propostas neste trabalho. Ela aplica os fatores de compatibilidade de acordo com o cenário da falta de dados ocorrida e consolida as distâncias resultantes, reduzindo a influência dos dados faltantes. Uma análise experimental realizada com o SOLID mostra que, para diferentes bases de dados de dimensionalidades e cardinalidades distintas, a correlação entre espaços métricos altamente correlacionados pode auxiliar na redução da influência de dados faltantes ao executar consultas por similaridade. O SOLID é mais de 55% mais preciso do que métodos de imputação ao recuperar tuplas sobre bases que podem até mesmo conter grandes quantidades de dados faltantes (50%), além de executar consultas até 100x mais rápido do que seus concorrentes.
Titre en anglais
Exploiting Correlated Metric Spaces in Similarity Queries over Incomplete Databases
Mots-clés en anglais
Complex data
Metric spaces correlation
Missing data
Similarity searches
Resumé en anglais
The growing advances in data generation from various data sources make it necessary to develop methods to support the management processes of large amounts of complex data, such as images, videos, and audio. However, the occurrence of failures during the data collection and storage processes leads to incompleteness, which negatively affects the execution of similarity queries in numerous information retrieval tasks. Specifically, in similarity queries, traditional distance functions, such as Euclidean, do not measure the dissimilarity between pairs of attributes with missing values. Traditional approaches from literature deal with incomplete databases by discarding tuples with missing values, imputing values using several heuristics, and indexing incomplete databases. However, the application of data deletion can cause a significant reduction of the dataset, and imputations of values can introduce distortions in the dataset. This work aims to extract intrinsic information from the data to help execute similarity queries on incomplete databases without discarding data or using a value imputation method. In this context, this masters dissertation proposes the SOLID (Search Over Correlated and Incomplete Data) method, which uses the correlation between pairs of metric spaces defined by a set of data representations to generate compatibility factors from identifying complex attributes correlated concerning occurrences of objects with missing values. Similarity queries are performed when the distance function proposed in this work is employed, which applies the compatibility factors according to the missing data scenario and consolidates the resulting distances, reducing the missing datas influence. Experimental analysis performed with SOLID shows that, for several databases, the correlation between highly correlated metric spaces can reduce the influence of missing data when executing similarity queries. Thus, SOLID is more than 55% better than imputation methods in accurately retrieving tuples over databases even with large amounts of missing data, in addition to executing queries by up to 100x faster than SOLID's competitor.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-09-13
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.