Machine learning via dynamical processes on complex networks

Cupertino, Thiago Henrique

doi:10.11606/T.55.2013.tde-25032014-154520

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.55.2013.tde-25032014-154520

Documento

Tesis Doctoral

Autor

Cupertino, Thiago Henrique (Catálogo USP)

Nombre completo

Thiago Henrique Cupertino

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2013-12-20

Publicación

São Carlos, 2013

Director

Liang, Zhao (Catálogo USP)

Tribunal

Liang, Zhao (Presidente)
Camargo, Heloisa de Arruda
Carvalho, André Carlos Ponce de Leon Ferreira de
Cavalcanti, George Darmiton da Cunha
Ribeiro, Carlos Henrique Costa

Título en inglés

Machine learning via dynamical processes on complex networks

Palabras clave en inglés

Complex networks
Consensus time
Dimensionality reduction
Dynamical processes
Interacting forces
Limiting probabilities
Machine learning
Network-based learning
Plinning control
Random walk
Semi-supervised learning
Stationary states
Supervised learning
Unsupervised learning

Resumen en inglés

Extracting useful knowledge from data sets is a key concept in modern information systems. Consequently, the need of efficient techniques to extract the desired knowledge has been growing over time. Machine learning is a research field dedicated to the development of techniques capable of enabling a machine to "learn" from data. Many techniques have been proposed so far, but there are still issues to be unveiled specially in interdisciplinary research. In this thesis, we explore the advantages of network data representation to develop machine learning techniques based on dynamical processes on networks. The network representation unifies the structure, dynamics and functions of the system it represents, and thus is capable of capturing the spatial, topological and functional relations of the data sets under analysis. We develop network-based techniques for the three machine learning paradigms: supervised, semi-supervised and unsupervised. The random walk dynamical process is used to characterize the access of unlabeled data to data classes, configuring a new heuristic we call ease of access in the supervised paradigm. We also propose a classification technique which combines the high-level view of the data, via network topological characterization, and the low-level relations, via similarity measures, in a general framework. Still in the supervised setting, the modularity and Katz centrality network measures are applied to classify multiple observation sets, and an evolving network construction method is applied to the dimensionality reduction problem. The semi-supervised paradigm is covered by extending the ease of access heuristic to the cases in which just a few labeled data samples and many unlabeled samples are available. A semi-supervised technique based on interacting forces is also proposed, for which we provide parameter heuristics and stability analysis via a Lyapunov function. Finally, an unsupervised network-based technique uses the concepts of pinning control and consensus time from dynamical processes to derive a similarity measure used to cluster data. The data is represented by a connected and sparse network in which nodes are dynamical elements. Simulations on benchmark data sets and comparisons to well-known machine learning techniques are provided for all proposed techniques. Advantages of network data representation and dynamical processes for machine learning are highlighted in all cases

Título en portugués

Aprendizado de máquina via processos dinâmicos em redes complexas

Palabras clave en portugués

Aprendizado baseado em redes
Aprendizado de máquina
Aprendizado não supervisionado
Aprendizado semissupervisionado
Aprendizado supervisionado
Caminhada aleatória
Controle pontual
Estado estacionário
Forças de interação
Probabilidades limite
Processos dinâmicos
Redes complexas
Redução de dimensionalidade
Tempo de consenso

Resumen en portugués

A extração de conhecimento útil a partir de conjuntos de dados é um conceito chave em sistemas de informação modernos. Por conseguinte, a necessidade de técnicas eficientes para extrair o conhecimento desejado vem crescendo ao longo do tempo. Aprendizado de máquina é uma área de pesquisa dedicada ao desenvolvimento de técnicas capazes de permitir que uma máquina "aprenda" a partir de conjuntos de dados. Muitas técnicas já foram propostas, mas ainda há questões a serem reveladas especialmente em pesquisas interdisciplinares. Nesta tese, exploramos as vantagens da representação de dados em rede para desenvolver técnicas de aprendizado de máquina baseadas em processos dinâmicos em redes. A representação em rede unifica a estrutura, a dinâmica e as funções do sistema representado e, portanto, é capaz de capturar as relações espaciais, topológicas e funcionais dos conjuntos de dados sob análise. Desenvolvemos técnicas baseadas em rede para os três paradigmas de aprendizado de máquina: supervisionado, semissupervisionado e não supervisionado. O processo dinâmico de passeio aleatório é utilizado para caracterizar o acesso de dados não rotulados às classes de dados configurando uma nova heurística no paradigma supervisionado, a qual chamamos de facilidade de acesso. Também propomos uma técnica de classificação de dados que combina a visão de alto nível dos dados, por meio da caracterização topológica de rede, com relações de baixo nível, por meio de medidas de similaridade, em uma estrutura geral. Ainda no aprendizado supervisionado, as medidas de rede modularidade e centralidade Katz são aplicadas para classificar conjuntos de múltiplas observações, e um método de construção evolutiva de rede é aplicado ao problema de redução de dimensionalidade. O paradigma semissupervisionado é abordado por meio da extensão da heurística de facilidade de acesso para os casos em que apenas algumas amostras de dados rotuladas e muitas amostras não rotuladas estão disponíveis. É também proposta uma técnica semissupervisionada baseada em forças de interação, para a qual fornecemos heurísticas para selecionar parâmetros e uma análise de estabilidade mediante uma função de Lyapunov. Finalmente, uma técnica não supervisionada baseada em rede utiliza os conceitos de controle pontual e tempo de consenso de processos dinâmicos para derivar uma medida de similaridade usada para agrupar dados. Os dados são representados por uma rede conectada e esparsa na qual os vértices são elementos dinâmicos. Simulações com dados de referência e comparações com técnicas de aprendizado de máquina conhecidas são fornecidos para todas as técnicas propostas. As vantagens da representação de dados em rede e de processos dinâmicos para o aprendizado de máquina são evidenciadas em todos os casos

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

tese_cupertino_revisada_v1.pdf (4.08 Mbytes)

Fecha de Publicación

2014-03-25

Trabajos derivados

ADVERTENCIA: El material descrito abajo se refiere a los trabajos derivados de esta tesis o disertación. El contenido de estos documentos es responsabilidad del autor de la tesis o disertación.

CUPERTINO, THIAGO H., and ZHAO, LIANG. Network-based supervised data classification by using an heuristic of ease of access. Neurocomputing (Amsterdam), 2014.
CUPERTINO, THIAGO H., GUELERI, ROBERTO, and ZHAO, LIANG. A semi-supervised classification technique based on interacting forces [doi:10.1016/j.neucom.2013.05.050]. Neurocomputing (Amsterdam) [online], 2013, vol. 127, p. 43-51.
CUPERTINO, THIAGO H., HUERTAS, JEAN, and ZHAO, LIANG. Data clustering using controlled consensus in complex networks [doi:10.1016/j.neucom.2013.02.026]. Neurocomputing (Amsterdam) [online], 2013, vol. 118, p. 132-140.
SILVA, THIAGO, ZHAO, LIANG, and CUPERTINO, THIAGO H. Handwritten Data Clustering Using Agents Competition in Networks [doi:10.1007/s10851-012-0353-z]. Journal of Mathematical Imaging and Vision (Dordrecht. Online) [online], 2013, vol. 45, p. 264-276.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Bias-Guided Random Walk for Network-Based Data Classiﬁcation. In 10th International Symposium on Neural Networks (ISNN2013), Dalian China, 2013. Lecture Notes in Computer Science (LNCS).Berlin Heidelberg : Springer-Verlag, 2013.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Semi-Supervised Learning Using Random Walk Limiting Probabilities. In International Symposium on Neural Networks (ISNN2013), Dalian China, 2013. Lecture Notes in Computer Science (LNCS).Berlin Heidelberg : Springer-Verlag, 2013.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Using Interacting Forces to Perform Semi-supervised Learning [doi:10.1109/SBRN.2012.24]. In 2012 Brazilian Symposium on Neural Networks (SBRN), Curitiba. 2012 Brazilian Symposium on Neural Networks. : IEEE, 2012.
CUPERTINO, THIAGO H., and ZHAO, LIANG. Using Katz Centrality to Classify Multiple Pattern Transformations [doi:10.1109/SBRN.2012.23]. In 2012 Brazilian Symposium on Neural Networks (SBRN), Curitiba. 2012 Brazilian Symposium on Neural Networks. : IEEE, 2012.
CUPERTINO, THIAGO H., CARNEIRO, M. G., and ZHAO, LIANG. Dimensionality reduction with the k-associated optimal graph applied to image classiﬁcation. In IEEE International Conference on Imaging Systems and Techniques (IST 2013), Beijing, 2013. Proceedings of IEEE International Conference on Imaging Systems and Techniques (IST 2013)., 2013.