• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2020.tde-23102020-164945
Documento
Autor
Nombre completo
Guilherme Muzzi da Rocha
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2020
Director
Tribunal
Ciferri, Cristina Dutra de Aguiar (Presidente)
Felipe, Joaquim Cezar
Hara, Carmem Satie
Sousa, Elaine Parros Machado de
Título en portugués
Processamento eficiente de consultas analíticas estendidas com predicado de similaridade sobre um data warehouse de imagens em ambientes paralelos e distribuídos
Palabras clave en portugués
Consultas OLAP estendidas com predicado de similaridade
Data warehouse de imagens
Imagens médicas
Processamento paralelo e distribuído
Resumen en portugués
Consultas analíticas sobre data warehouses convencionais possuem alto custo computacional, desde que requerem a realização de caras operações de junção-estrela considerando grandes volumes de dados. Este custo é ainda maior quando se consideram data warehouses de imagens. Além deles serem mais volumosos, as consultas analíticas são estendidas com predicado de similaridade de imagens, o qual também requer a realização de onerosas operações de cálculos de distância. Nesta dissertação de mestrado, investiga-se esse desafio. Considera-se o contexto de imagens médicas, a sua importância para a tomada de decisão analítica e seu impacto para a sociedade. Neste contexto, as aplicações requerem o compartilhamento e o gerenciamento de grandes volumes de dados, sendo necessário o uso de um framework de processamento paralelo e distribuído. Nesta dissertação, são propostos quatro métodos para o processamento eficiente de consultas analíticas estendidas com predicado de similaridade de imagens em Spark. O método BloOmnImg integra a técnica bloom filter cascade join para o processamento da junção-estrela com a técnica Omni para o processamento das operações de distância. Por ser baseado em uma estrutura de dados probabilística, ele é indicado para sistemas computacionais com pouca memória primária disponível. O método BrOmnImg também usa a técnica Omni, porém a integra com a técnica broadcast join. Por ser baseado em uma estrutura de dados exata, ele é indicado para sistemas computacionais cuja memória primária disponível é suficiente para armazenar essa estrutura. O método BrOmnImgCF estende o método BrOmnImg de forma a utilizar também o predicado convencional das consultas para reduzir ainda mais o número de operações de cálculos de distância entre as imagens. Por fim, o método SimSparkOLAP processa eficientemente consultas analíticas estendidas com predicado de similaridade de imagens, geográficos e socioeconômicos. Os métodos propostos foram validados por meio de testes de desempenho experimentais. Os resultados demonstraram que os métodos proveram ganho de desempenho de até 66,93% frente aos trabalhos relacionados existentes na literatura. Adicionalmente, os métodos propostos foram usados para investigar o potencial semântico do processamento destas consultas analíticas, visando mostrar como os resultados obtidos nesta dissertação de mestrado podem ser usados para enriquecer o suporte à tomada de decisão da área médica.
Título en inglés
Efficient processing analytical queries extended with similarity search predicate over an image data warehouse in parallel and distributed environments
Palabras clave en inglés
Image data warehouse
Medical images
OLAP queries extended with similarity search predicate
Parallel and distributed processing
Resumen en inglés
Analytical queries over conventional data warehouses have a high computational cost, as they require processing the expensive star join operation considering huge volumes of data. This cost is even greater in image data warehousing environments. First, image data warehouses are more voluminous. Second, analytical queries are extended with similarity search predicate, also requiring the processing of costly operations to calculate the distance between images. In this master thesis, we focus on this challenge. We consider the context of medical images, due to the importance of the analytical decision-making over them and their impact on the society. In this context, medical applications usually share and manage large volumes of data. Thus, they require the use of a parallel and distributed processing framework. We propose four methods for the efficient processing of analytical queries extended with image similarity search predicate in Spark. The first method is BloOmnImg, which is based on the integration of the bloom filter cascade join and the Omni techniques for processing star joins and distance calculations, respectively. BloOmnImg uses a probabilistic structure. Then, it is indicated for computational systems with low primary memory. The second method is BrOmnImg, which also uses the Omni technique, but integrate it with the broadcast join technique. BrOmnImg is based on a exact structure, then it is indicated for computational systems with primary memory enough to store this structure. The BrOmnImgCF method extends BrOmnImg by using the conventional predicate to further reduce the distance calculations between images. Finally, SimSparkOLAP extends BrOmnImg for the efficient processing analytical queries extended with image, geographical and socioeconomic predicates. The proposed methods were validated through performance tests considering different data volumes and configurations for the predicates involved. The results showed the significant performance gain of the methods over related work. The validation of the methods also considered examples of semantic queries and identified their importance to enrich the medical decision-making process.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2020-10-23
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.