Machine learning via dynamical processes on complex networks

Cupertino, Thiago Henrique

doi:10.11606/T.55.2013.tde-25032014-154520

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2013.tde-25032014-154520

Document

Doctoral Thesis

Author

Cupertino, Thiago Henrique (Catálogo USP)

Full name

Thiago Henrique Cupertino

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2013-12-20

Published

São Carlos, 2013

Supervisor

Liang, Zhao (Catálogo USP)

Committee

Liang, Zhao (President)
Camargo, Heloisa de Arruda
Carvalho, André Carlos Ponce de Leon Ferreira de
Cavalcanti, George Darmiton da Cunha
Ribeiro, Carlos Henrique Costa

Title in English

Machine learning via dynamical processes on complex networks

Keywords in English

Complex networks
Consensus time
Dimensionality reduction
Dynamical processes
Interacting forces
Limiting probabilities
Machine learning
Network-based learning
Plinning control
Random walk
Semi-supervised learning
Stationary states
Supervised learning
Unsupervised learning

Abstract in English

Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to "learn" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases

Title in Portuguese

Aprendizado de máquina via processos dinâmicos em redes complexas

Keywords in Portuguese

Aprendizado baseado em redes
Aprendizado de máquina
Aprendizado não supervisionado
Aprendizado semissupervisionado
Aprendizado supervisionado
Caminhada aleatória
Controle pontual
Estado estacionário
Forças de interação
Probabilidades limite
Processos dinâmicos
Redes complexas
Redução de dimensionalidade
Tempo de consenso

Abstract in Portuguese

A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina "aprenda" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

tese_cupertino_revisada_v1.pdf (4.08 Mbytes)

Publishing Date

2014-03-25

Derived works

WARNING: The material described below relates to works resulting from this thesis or dissertation. The contents of these works are the author's responsibility.

CUPERTINO, THIAGO H., and ZHAO, LIANG. Network-based supervised data classification by using an heuristic of ease of access. Neurocomputing (Amsterdam), 2014.
CUPERTINO, THIAGO H., GUELERI, ROBERTO, and ZHAO, LIANG. A semi-supervised classification technique based on interacting forces [doi:10.1016/j.neucom.2013.05.050]. Neurocomputing (Amsterdam) [online], 2013, vol. 127, p. 43-51.
CUPERTINO, THIAGO H., HUERTAS, JEAN, and ZHAO, LIANG. Data clustering using controlled consensus in complex networks [doi:10.1016/j.neucom.2013.02.026]. Neurocomputing (Amsterdam) [online], 2013, vol. 118, p. 132-140.
SILVA, THIAGO, ZHAO, LIANG, and CUPERTINO, THIAGO H. Handwritten Data Clustering Using Agents Competition in Networks [doi:10.1007/s10851-012-0353-z]. Journal of Mathematical Imaging and Vision (Dordrecht. Online) [online], 2013, vol. 45, p. 264-276.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Bias-Guided Random Walk for Network-Based Data Classiﬁcation. In 10th International Symposium on Neural Networks (ISNN2013), Dalian China, 2013. Lecture Notes in Computer Science (LNCS).Berlin Heidelberg : Springer-Verlag, 2013.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Semi-Supervised Learning Using Random Walk Limiting Probabilities. In International Symposium on Neural Networks (ISNN2013), Dalian China, 2013. Lecture Notes in Computer Science (LNCS).Berlin Heidelberg : Springer-Verlag, 2013.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Using Interacting Forces to Perform Semi-supervised Learning [doi:10.1109/SBRN.2012.24]. In 2012 Brazilian Symposium on Neural Networks (SBRN), Curitiba. 2012 Brazilian Symposium on Neural Networks. : IEEE, 2012.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Using Katz Centrality to Classify Multiple Pattern Transformations [doi:10.1109/SBRN.2012.23]. In 2012 Brazilian Symposium on Neural Networks (SBRN), Curitiba. 2012 Brazilian Symposium on Neural Networks. : IEEE, 2012.
CUPERTINO, THIAGO H., CARNEIRO, M. G., and ZHAO, LIANG. Dimensionality reduction with the k-associated optimal graph applied to image classiﬁcation. In IEEE International Conference on Imaging Systems and Techniques (IST 2013), Beijing, 2013. Proceedings of IEEE International Conference on Imaging Systems and Techniques (IST 2013)., 2013.