Classificação de dados estacionários e não estacionários baseada em grafos

Bertini Júnior, João Roberto

doi:10.11606/T.55.2011.tde-15032011-102039

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.55.2011.tde-15032011-102039

Document

Thèse de Doctorat

Auteur

Bertini Júnior, João Roberto (Catálogo USP)

Nom complet

João Roberto Bertini Júnior

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2011-01-24

Editeur

São Carlos, 2011

Directeur

Liang, Zhao (Catálogo USP)

Jury

Liang, Zhao (Président)
Hruschka Junior, Estevam Rafael
Lopes, Alneu de Andrade
Macau, Elbert Einstein Nehrer
Silva, Ivan Nunes da

Titre en portugais

Classificação de dados estacionários e não estacionários baseada em grafos

Mots-clés en portugais

Aprendizado baseado em grafos
Aprendizado incremental
Classificação multiclasse
Classificação não paramétrica
Formação do grafo
Grafo K-associado
Medida de pureza
Mudança de conceito

Resumé en portugais

Métodos baseados em grafos consistem em uma poderosa forma de representação e abstração de dados que proporcionam, dentre outras vantagens, representar relações topológicas, visualizar estruturas, representar grupos de dados com formatos distintos, bem como, fornecer medidas alternativas para caracterizar os dados. Esse tipo de abordagem tem sido cada vez mais considerada para solucionar problemas de aprendizado de máquina, principalmente no aprendizado não supervisionado, como agrupamento de dados, e mais recentemente, no aprendizado semissupervisionado. No aprendizado supervisionado, por outro lado, o uso de algoritmos baseados em grafos ainda tem sido pouco explorado na literatura. Este trabalho apresenta um algoritmo não paramétrico baseado em grafos para problemas de classificação com distribuição estacionária, bem como sua extensão para problemas que apresentam distribuição não estacionária. O algoritmo desenvolvido baseia-se em dois conceitos, a saber, 1) em uma estrutura chamada grafo K-associado ótimo, que representa o conjunto de treinamento como um grafo esparso e dividido em componentes; e 2) na medida de pureza de cada componente, que utiliza a estrutura do grafo para determinar o nível de mistura local dos dados em relação às suas classes. O trabalho também considera problemas de classificação que apresentam alteração na distribuição de novos dados. Este problema caracteriza a mudança de conceito e degrada o desempenho do classificador. De modo que, para manter bom desempenho, é necessário que o classificador continue aprendendo durante a fase de aplicação, por exemplo, por meio de aprendizado incremental. Resultados experimentais sugerem que ambas as abordagens apresentam vantagens na classificação de dados em relação aos algoritmos testados

Titre en anglais

Graph-based classification for stationary and non-stationary data

Mots-clés en anglais

Concept drift
Graph formation
Graph-based learning
Incremental learning
K-associated graph
Multi-class classification
Nonparametric classification
Purity measure

Resumé en anglais

Graph-based methods consist in a powerful form for data representation and abstraction which provides, among others advantages, representing topological relations, visualizing structures, representing groups of data with distinct formats, as well as, supplying alternative measures to characterize data. Such approach has been each time more considered to solve machine learning related problems, mainly concerning unsupervised learning, like clustering, and recently, semi-supervised learning. However, graph-based solutions for supervised learning tasks still remain underexplored in literature. This work presents a non-parametric graph-based algorithm suitable for classification problems with stationary distribution, as well as its extension to cope with problems of non-stationary distributed data. The developed algorithm relies on the following concepts, 1) a graph structure called optimal K-associated graph, which represents the training set as a sparse graph separated into components; and 2) the purity measure for each component, which uses the graph structure to determine local data mixture level in relation to their classes. This work also considers classification problems that exhibit modification on distribution of data flow. This problem qualifies concept drift and worsens any static classifier performance. Hence, in order to maintain accuracy performance, it is necessary for the classifier to keep learning during application phase, for example, by implementing incremental learning. Experimental results, concerning both algorithms, suggest that they had presented advantages over the tested algorithms on data classification tasks

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

teseBertiniVersaoRevisada.pdf (3.97 Mbytes)

Date de Publication

2011-03-15

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.