• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.55.2013.tde-13012014-160232
Document
Auteur
Nom complet
Cássio Martini Martins Pereira
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2013
Directeur
Jury
Mello, Rodrigo Fernandes de (Président)
Batista, Gustavo Enrique de Almeida Prado Alves
Hruschka Júnior, Estevam Rafael
Telles, Guilherme Pimentel
Zuben, Fernando José von
Titre en portugais
Agrupamento de séries temporais em fluxos contínuos de dados
Mots-clés en portugais
Agrupamento
Aprendizado de máquina
Fluxos contínuos de dados
Séries temporais
Resumé en portugais
Recentemente, a área de mineração de fluxos contínuos de dados ganhou importância, a qual visa extrair informação útil a partir de conjuntos massivos e contínuos de dados que evoluem com o tempo. Uma das técnicas que mais se destaca nessa área e a de agrupamento de dados, a qual busca estruturar grandes volumes de dados em hierarquias ou partições, tais que objetos mais similares estejam em um mesmo grupo. Diversos algoritmos foram propostos nesse contexto, porém a maioria concentrou-se no agrupamento de fluxos compostos por pontos em um espaço multidimensional. Poucos trabalhos voltaram-se para o agrupamento de séries temporais, as quais se caracterizam por serem coleções de observações coletadas sequencialmente no tempo. Técnicas atuais para agrupamento de séries temporais em fluxos contínuos apresentam uma limitação na escolha da medida de similaridade, a qual na maioria dos casos e baseada em uma simples correlação, como a de Pearson. Este trabalho mostra que até para modelos clássicos de séries temporais, como os de Box e Jenkins, a correlação de Pearson não é capaz de detectar similaridade, apesar das séries serem provenientes de um mesmo modelo matemático e com mesma parametrização. Essa limitação nas técnicas atuais motivou este trabalho a considerar os modelos geradores de séries temporais, ou seja, as equações que regem sua geração, por meio de diversas medidas descritivas, tais como a Autoinformação Mútua, o Expoente de Hurst e várias outras. A hipótese considerada e que, por meio do uso de medidas descritivas, pode-se obter uma melhor caracterização do modelo gerador de séries temporais e, consequentemente, um agrupamento de maior qualidade. Nesse sentido, foi realizada uma avaliação de diversas medidas descritivas, as quais foram usadas como entrada para um novo algoritmo de agrupamento baseado em árvores, denominado TS-Stream. Experimentos com bases sintéticas compostas por diversos modelos de séries temporais foram realizados, mostrando a superioridade de TS-Stream sobre ODAC, a técnica mais popular para esta tarefa encontrada na literatura. Experimentos com séries reais provenientes de preços de ações da NYSE e NASDAQ mostraram que o uso de TS-Stream na escolha de ações, por meio da criação de uma carteira de investimentos diversificada, pode aumentar os retornos das aplicações em várias ordens de grandeza, se comparado a estratégias baseadas somente no indicador econômico Moving Average Convergence Divergence
Titre en anglais
Time series clustering for data streams
Mots-clés en anglais
Clustering
Data streams
Machine learning
Time series
Resumé en anglais
Recently, the data streams mining area has gained importance, which aims to extract useful information from massive and continuous data sources that evolve over time. One of the most popular techniques in this area is clustering, which aims to structure large volumes of data into hierarchies or partitions, such that similar objects are placed in the same group. Several algorithms were proposed in this context, however most of them focused on the clustering of streams composed of multidimensional points. Few studies have focused on clustering streaming time series, which are characterized by being collections of observations sampled sequentially along time. Current techniques for clustering streaming time series have a limitation in the choice of the similarity measure, as most are based on a simple correlation, such as Pearson. This thesis shows that even for classic time series models, such as those from Box and Jenkins, the Pearson correlation is not capable of detecting similarity, despite dealing with series originating from the same mathematical model and the same parametrization. This limitation in current techniques motivated this work to consider time series generating models, i.e., generating equations, through the use of several descriptive measures, such as Auto Mutual Information, the Hurst Exponent and several others. The hypothesis is that through the use of several descriptive measures, a better characterization of time series generating models can be achieved, which in turn will lead to better clustering quality. In that context, several descriptive measures were evaluated and then used as input to a new tree-based clustering algorithm, entitled TS-Stream. Experiments were conducted with synthetic data sets composed of various time series models, confirming the superiority of TS-Stream when compared to ODAC, the most successful technique in the literature for this task. Experiments with real-world time series from stock market data of the NYSE and NASDAQ showed that the use of TS-Stream in the selection of stocks, by the creation of a diversified portfolio, can increase the returns of the investment in several orders of magnitude when compared to trading strategies solely based on the Moving Average Convergence Divergence financial indicator
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
cassio_rev.pdf (3.92 Mbytes)
Date de Publication
2014-01-15
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.