• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.3.2024.tde-20082024-101910
Documento
Autor
Nome completo
Felipe Garcia Bulsoni
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Paulo, 2024
Orientador
Banca examinadora
Sato, Liria Matsumoto (Presidente)
Guardia, Hélio Crestana
Laine, Jean Marcos
 
Título em português
Armazenamento elástico na recepção de dados em fluxo contínuo variável.
Palavras-chave em português
Aumento de confiabilidade
Computação em nuvem
Elasticidade de recursos
Modelo workflow
Sistemas de processamento de fluxo de dados contínuos
Resumo em português
O crescimento do número de usuários e dispositivos conectados à internet, junto ao aumento da quantidade e rapidez com que novas informações são geradas, e a velocidade em que esses dados deixam de ser relevantes e perdem seu valor, contribuem para a dificuldade em utilizar métodos convencionais de computação para extrair informações úteis da grande massa de dados gerada constantemente. Uma solução para a obtenção dessas informações valiosas, com menores custos de armazenamento e maior retorno, seria o Processamento de Fluxos De Dados Contínuos (PFDC). O PFDC, porém, tem seus próprios desafios, tais como garantir que os dados dos fluxos sejam lidos sem perdas, evitar múltiplas leituras dos mesmos dados, processar eficientemente os dados de forma a reduzir latência, e permitir escalabilidade, e todos esses fatores se traduzem em custos elevados. Em cenários que apresentam um fluxo de dados contínuo e de mesma intensidade, é possível otimizar o hardware para a demanda, porém, em casos como o monitoramento de uma rede social, que vê seus picos durante e após algum evento ou em horários de repouso, o fluxo varia de intensidade conforme o momento. Isso significa que o dimensionamento da capacidade de processamento tende a ser feito ou de acordo com o caso médio, arriscando uma sobrecarga do sistema, ou de acordo com o pior caso, gerando gastos desnecessários durante os momentos de baixa utilização. Para resolver esses problemas, uma das possíveis soluções é a utilização de tecnologias de processamento paralelo e distribuído, de forma a viabilizar certo grau de elasticidade aos sistemas. Esta pesquisa visa utilizar tais tecnologias, fazendo uso do modelo de workflow para implementação de uma arquitetura elástica auto-ajustável, a qual poderia responder à variações na intensidade do fluxo de dados com o recrutamento de novos recursos, de forma a ser capaz de lidar com a nova carga e aumentar a confiabilidade do sistema, ou com a liberação de recursos ociosos, de forma a gerar redução de custo pelo melhor aproveitando de recursos. Nesta dissertação é apresentada uma arquitetura empregada no processo de recepção de dados que visa mitigar a perda de dados recebidos em fluxo de dados contínuo de intensidade variável. A abordagem adotada ´e baseada em elasticidade na etapa de recepção dos dados, adicionando ou removendo servidores locais ou na nuvem com recursos de armazenamento na etapa de recepção dos dados. Essa elasticidade permite que o sistema ajuste dinamicamente sua capacidade para lidar com picos de carga sem incorrer em custos excessivos durante períodos de baixa demanda. Foi construído um protótipo utilizando servidores na nuvem, cujos resultados demonstram o sucesso da abordagem.
 
Título em inglês
Elastic storage in the reception of variable continuous data flow.
Palavras-chave em inglês
Cloud computing
Continuous data stream processing systems
Reliability enhancement, Workflow model
Resource elasticity
Resumo em inglês
The growing number of users and devices connected to the internet, coupled with the increase in data generated, and the speed in which such data loses relevancy and value, are all contributing factors to the difficulty in utilizing conventional computational methods to extract useful information from the big mass of data constantly generated in the web. A solution to this problem, which would enable obtaining such valuable information with lower storage costs and better results, is Data Stream Processing (DSP) or Stream Processing (SP). Stream Processing, however, presents its own challenges, such as ensuring that data is read without losses (lossless reception); avoiding reading the same data multiple times (and even worse, considering the same data to be different data); processing data in an efficient manner to reduce latency; and enabling scalability. All of these challenges usually translate to increases in total cost of the solution, and ultimately elevated costs. When dealing with scenarios which present a continuous flow of data, one can optimize the hardware usage according to the demand, however, in cases such as monitoring a social network, which presents peak usage right after some significant event or in specific times of the day, the flow of data itself is variable. This means that dimensioning the processing capacity of the system tends to be done either according to a mean case, risking overloading the system at peak moments, or according to the worst case scenario, which means having the hardware sit idle or with low usage most of the time, increasing overall cost of the system in an unnecessary manner. To solve these problems, one solution is using Stream Processing technologies, coupled with distributed and parallel processing, in a way to enable a certain degree of elasticity in the system. This research aims to utilize such technologies, making use of the workflow model to implement an architecture elastic and self-adjusting, which can respond to variations in the data flow intensity by recruiting more resources, becoming capable of handling an increasing load and increasing the confiability and reliability of the system as a whole, or by releasing idle resources, providing a cost reduction by better handling available system resources. This dissertation presents an architecture employed in the data reception process aimed at mitigating data loss in continuous data streams of variable intensity. The adopted approach is based on elasticity in the data reception stage, adding or removing local or cloud servers with storage resources as needed. This elasticity allows the system to dynamically adjust its capacity to handle load peaks without incurring excessive costs during periods of low demand. A prototype was built using cloud servers, and the results demonstrate the success of the approach.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2024-08-21
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores.
CeTI-SC/STI
© 2001-2024. Biblioteca Digital de Teses e Dissertações da USP.