Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados

Albertini, Marcelo Keese

doi:10.11606/T.55.2012.tde-12062012-085839

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.55.2012.tde-12062012-085839

Document

Thèse de Doctorat

Auteur

Albertini, Marcelo Keese (Catálogo USP)

Nom complet

Marcelo Keese Albertini

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2012-04-11

Editeur

São Carlos, 2012

Directeur

Mello, Rodrigo Fernandes de (Catálogo USP)

Jury

Mello, Rodrigo Fernandes de (Président)
Delbem, Alexandre Cláudio Botazzo
Hruschka Júnior, Estevam Rafael
Lorena, Ana Carolina
Silva, Ivan Nunes da

Titre en portugais

Adaptação de viés indutivo de algoritmos de agrupamento de fluxos de dados

Mots-clés en portugais

Agrupamento de dados
Aprendizado de máquina
Fluxosa de dados

Resumé en portugais

Diversas áreas de pesquisa são dedicadas à compreensão de fenômenos que exigem a coleta ininterrupta de sequências de amostras, denominadas fluxos de dados. Esses fenômenos frequentemente apresentam comportamento variável e são estudados por meio de indução não supervisionada baseada em agrupamento de dados. Atualmente, o processo de agrupamento tem exibido sérias limitações em sua aplicação a fluxos de dados, devido às exigências impostas pelas variações comportamentais e pelo modo de coleta de dados. Embora tem-se desenvolvido algoritmos eficientes para agrupar fluxos de dados, há a necessidade de estudos sobre a influência de variações comportamentais nos parâmetros de algoritmos (e.g., taxas de aprendizado e limiares de proximidade), as quais interferem diretamente na compreensão de fenômenos. Essa lacuna motivou esta tese, cujo objetivo foi a proposta de uma abordagem para a adaptação do viés indutivo de algoritmos de agrupamento de fluxos de dados de acordo com variações comportamentais dos fenômenos em estudo. Para cumprir esse objetivo projetou-se: i) uma abordagem baseada em uma nova arquitetura de rede neural artificial que permite avaliação de comportamento de fenômenos por meio da estimação de cadeias de Markov e entropia de Shannon; ii) uma abordagem para adaptar parâmetros de algoritmos de agrupamento tradicional de acordo com variações comportamentais em blocos sequenciais de dados; e iii) uma abordagem para adaptar parâmetros de agrupamento de acordo com a contínua avaliação da estabilidade de dados. Adicionalmente, apresenta-se nesta tese uma taxonomia de técnicas de detecção de variação comportamental de fenômenos e uma formalização para o problema de agrupamento de fluxos de dados

Titre en anglais

Adapting the inductive bias of data-stream clustering algorithms

Mots-clés en anglais

Data clustering
Data streams
Machine learning

Resumé en anglais

Several research fields have described phenomena that produce endless sequences of samples, referred to as data streams. These phenomena usually present behavior variation and are studied by means of unsupervised induction based on data clustering. In order to cope with the characteristics of data streams, researchers have designed clustering algorithms with low time and space complexity requirements. However, predefined and static parameters (thresholds, number of clusters and learning rates) found in current algorithms still limit the application of clustering to data streams. This limitation motivated this thesis, which proposes a continuous approach to evaluate behavior variations and adapt algorithm inductive bias by changing its parameters. The main contribution of this thesis is the proposal of three approaches to adapt induction bias: i) an approach based on the design of an adaptive artificial self-organizing neural network architecture that enables behavior evaluation by means of Markov chain and Shannon entropy estimations; ii) an approach to adapt traditional data clustering algorithms according to behavior variations in sequences of data chunks; and iii) an approach based on the proposed neural network architecture to continuously adapt parameters by means of the evaluation of data stability. Additionally, in order to analyze the essential characteristics of data streams, this thesis presents a formalization for the problem of data stream clustering and a taxonomy on approaches to detect behavior variations

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

revmarcelo.pdf (1.47 Mbytes)

Date de Publication

2012-06-12

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.