• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.55.2013.tde-13012014-160232
Documento
Autor
Nombre completo
Cássio Martini Martins Pereira
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2013
Director
Tribunal
Mello, Rodrigo Fernandes de (Presidente)
Batista, Gustavo Enrique de Almeida Prado Alves
Hruschka Júnior, Estevam Rafael
Telles, Guilherme Pimentel
Zuben, Fernando José von
Título en portugués
Agrupamento de séries temporais em fluxos contínuos de dados
Palabras clave en portugués
Agrupamento
Aprendizado de máquina
Fluxos contínuos de dados
Séries temporais
Resumen en portugués
Recentemente, a área de mineração de fluxos contínuos de dados ganhou importância, a qual visa extrair informação útil a partir de conjuntos massivos e contínuos de dados que evoluem com o tempo. Uma das técnicas que mais se destaca nessa área e a de agrupamento de dados, a qual busca estruturar grandes volumes de dados em hierarquias ou partições, tais que objetos mais similares estejam em um mesmo grupo. Diversos algoritmos foram propostos nesse contexto, porém a maioria concentrou-se no agrupamento de fluxos compostos por pontos em um espaço multidimensional. Poucos trabalhos voltaram-se para o agrupamento de séries temporais, as quais se caracterizam por serem coleções de observações coletadas sequencialmente no tempo. Técnicas atuais para agrupamento de séries temporais em fluxos contínuos apresentam uma limitação na escolha da medida de similaridade, a qual na maioria dos casos e baseada em uma simples correlação, como a de Pearson. Este trabalho mostra que até para modelos clássicos de séries temporais, como os de Box e Jenkins, a correlação de Pearson não é capaz de detectar similaridade, apesar das séries serem provenientes de um mesmo modelo matemático e com mesma parametrização. Essa limitação nas técnicas atuais motivou este trabalho a considerar os modelos geradores de séries temporais, ou seja, as equações que regem sua geração, por meio de diversas medidas descritivas, tais como a Autoinformação Mútua, o Expoente de Hurst e várias outras. A hipótese considerada e que, por meio do uso de medidas descritivas, pode-se obter uma melhor caracterização do modelo gerador de séries temporais e, consequentemente, um agrupamento de maior qualidade. Nesse sentido, foi realizada uma avaliação de diversas medidas descritivas, as quais foram usadas como entrada para um novo algoritmo de agrupamento baseado em árvores, denominado TS-Stream. Experimentos com bases sintéticas compostas por diversos modelos de séries temporais foram realizados, mostrando a superioridade de TS-Stream sobre ODAC, a técnica mais popular para esta tarefa encontrada na literatura. Experimentos com séries reais provenientes de preços de ações da NYSE e NASDAQ mostraram que o uso de TS-Stream na escolha de ações, por meio da criação de uma carteira de investimentos diversificada, pode aumentar os retornos das aplicações em várias ordens de grandeza, se comparado a estratégias baseadas somente no indicador econômico Moving Average Convergence Divergence
Título en inglés
Time series clustering for data streams
Palabras clave en inglés
Clustering
Data streams
Machine learning
Time series
Resumen en inglés
Recently, the data streams mining area has gained importance, which aims to extract useful information from massive and continuous data sources that evolve over time. One of the most popular techniques in this area is clustering, which aims to structure large volumes of data into hierarchies or partitions, such that similar objects are placed in the same group. Several algorithms were proposed in this context, however most of them focused on the clustering of streams composed of multidimensional points. Few studies have focused on clustering streaming time series, which are characterized by being collections of observations sampled sequentially along time. Current techniques for clustering streaming time series have a limitation in the choice of the similarity measure, as most are based on a simple correlation, such as Pearson. This thesis shows that even for classic time series models, such as those from Box and Jenkins, the Pearson correlation is not capable of detecting similarity, despite dealing with series originating from the same mathematical model and the same parametrization. This limitation in current techniques motivated this work to consider time series generating models, i.e., generating equations, through the use of several descriptive measures, such as Auto Mutual Information, the Hurst Exponent and several others. The hypothesis is that through the use of several descriptive measures, a better characterization of time series generating models can be achieved, which in turn will lead to better clustering quality. In that context, several descriptive measures were evaluated and then used as input to a new tree-based clustering algorithm, entitled TS-Stream. Experiments were conducted with synthetic data sets composed of various time series models, confirming the superiority of TS-Stream when compared to ODAC, the most successful technique in the literature for this task. Experiments with real-world time series from stock market data of the NYSE and NASDAQ showed that the use of TS-Stream in the selection of stocks, by the creation of a diversified portfolio, can increase the returns of the investment in several orders of magnitude when compared to trading strategies solely based on the Moving Average Convergence Divergence financial indicator
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
cassio_rev.pdf (3.92 Mbytes)
Fecha de Publicación
2014-01-15
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.