• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2020.tde-23102020-164945
Document
Auteur
Nom complet
Guilherme Muzzi da Rocha
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2020
Directeur
Jury
Ciferri, Cristina Dutra de Aguiar (Président)
Felipe, Joaquim Cezar
Hara, Carmem Satie
Sousa, Elaine Parros Machado de
Titre en portugais
Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
Mots-clés en portugais
Consultas OLAP estendidas com predicado de similaridade
Data warehouse de imagens
Imagens médicas
Processamento paralelo e distribuído
Resumé en portugais
Consultas analíticas sobre data warehouses convencionais possuem alto custo computacional, desde que requerem a realização de caras operações de junção-estrela considerando grandes volumes de dados. Este custo é ainda maior quando se consideram data warehouses de imagens. Além deles serem mais volumosos, as consultas analíticas são estendidas com predicado de similaridade de imagens, o qual também requer a realização de onerosas operações de cálculos de distância. Nesta dissertação de mestrado, investiga-se esse desafio. Considera-se o contexto de imagens médicas, a sua importância para a tomada de decisão analítica e seu impacto para a sociedade. Neste contexto, as aplicações requerem o compartilhamento e o gerenciamento de grandes volumes de dados, sendo necessário o uso de um framework de processamento paralelo e distribuído. Nesta dissertação, são propostos quatro métodos para o processamento eficiente de consultas analíticas estendidas com predicado de similaridade de imagens em Spark. O método BloOmnImg integra a técnica bloom filter cascade join para o processamento da junção-estrela com a técnica Omni para o processamento das operações de distância. Por ser baseado em uma estrutura de dados probabilística, ele é indicado para sistemas computacionais com pouca memória primária disponível. O método BrOmnImg também usa a técnica Omni, porém a integra com a técnica broadcast join. Por ser baseado em uma estrutura de dados exata, ele é indicado para sistemas computacionais cuja memória primária disponível é suficiente para armazenar essa estrutura. O método BrOmnImgCF estende o método BrOmnImg de forma a utilizar também o predicado convencional das consultas para reduzir ainda mais o número de operações de cálculos de distância entre as imagens. Por fim, o método SimSparkOLAP processa eficientemente consultas analíticas estendidas com predicado de similaridade de imagens, geográficos e socioeconômicos. Os métodos propostos foram validados por meio de testes de desempenho experimentais. Os resultados demonstraram que os métodos proveram ganho de desempenho de até 66,93% frente aos trabalhos relacionados existentes na literatura. Adicionalmente, os métodos propostos foram usados para investigar o potencial semântico do processamento destas consultas analíticas, visando mostrar como os resultados obtidos nesta dissertação de mestrado podem ser usados para enriquecer o suporte à tomada de decisão da área médica.
Titre en anglais
Efficient processing analytical queries extended with similarity search predicate over an image data warehouse in parallel and distributed environments
Mots-clés en anglais
Image data warehouse
Medical images
OLAP queries extended with similarity search predicate
Parallel and distributed processing
Resumé en anglais
Analytical queries over conventional data warehouses have a high computational cost, as they require processing the expensive star join operation considering huge volumes of data. This cost is even greater in image data warehousing environments. First, image data warehouses are more voluminous. Second, analytical queries are extended with similarity search predicate, also requiring the processing of costly operations to calculate the distance between images. In this master thesis, we focus on this challenge. We consider the context of medical images, due to the importance of the analytical decision-making over them and their impact on the society. In this context, medical applications usually share and manage large volumes of data. Thus, they require the use of a parallel and distributed processing framework. We propose four methods for the efficient processing of analytical queries extended with image similarity search predicate in Spark. The first method is BloOmnImg, which is based on the integration of the bloom filter cascade join and the Omni techniques for processing star joins and distance calculations, respectively. BloOmnImg uses a probabilistic structure. Then, it is indicated for computational systems with low primary memory. The second method is BrOmnImg, which also uses the Omni technique, but integrate it with the broadcast join technique. BrOmnImg is based on a exact structure, then it is indicated for computational systems with primary memory enough to store this structure. The BrOmnImgCF method extends BrOmnImg by using the conventional predicate to further reduce the distance calculations between images. Finally, SimSparkOLAP extends BrOmnImg for the efficient processing analytical queries extended with image, geographical and socioeconomic predicates. The proposed methods were validated through performance tests considering different data volumes and configurations for the predicates involved. The results showed the significant performance gain of the methods over related work. The validation of the methods also considered examples of semantic queries and identified their importance to enrich the medical decision-making process.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-10-23
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.