• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.55.2020.tde-23032020-101746
Documento
Autor
Nome completo
Evaristo Calisto Nhassengo
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2020
Orientador
Banca examinadora
Cuminato, José Alberto (Presidente)
Carmo, Fabiano Petronetto do
Falcão, Alexandre Xavier
Mello, Rodrigo Fernandes de
Título em português
Processamento de sinal em grafos: Teoria de amostragem e sua aplicação no aprendizado semi-supervisionado ativo
Palavras-chave em português
Aprendizado semi-supervisionado
Processamento de sinais sobre grafos
Teoria de amostragem
Transformada de Fourier do grafo
Resumo em português
No uso dos algoritmos de aprendizado de máquina para as tarefas de classificação, admite-se a existência de um conjunto de exemplos rotulados conhecido como conjunto de treinamento. Este conjunto é utilizado para treinar um classificador. Porém em vários casos de aplicação real o conjunto de treinamento pode não ser suficiente para treinar um bom classificador. Existe uma variação dos algoritmos de aprendizado de máquina supervisionado, conhecida como algoritmos semi-supervisionados. Os algoritmos semi-supervisionados, assumem que, juntamente com o conjunto de treinamento, existe um segundo conjunto de exemplos não rotulados, também disponível durante o treinamento. Um dos objetivos dos algoritmos semisupervisionados é o treinamento de classificadores quando uma grande quantidade de exemplos não rotulados está disponível e o conjunto de exemplos rotulados é escasso. Para tratar o problema da escassez de dados rotulados propõe-se uma escolha estratégica de exemplos a rotular para uma classificação eficaz. Neste trabalho é generalizado o problema clássico da amostragem de sinais, considera-se o problema da amostragem de sinais definidos em grafos. A teoria de amostragem de sinais em grafos estuda o problema da escolha do melhor subconjunto de vértices para a reconstrução perfeita do sinal através de sua amostra. No estudo de sinais através de grafos a representação do domínio de frequência é dada através dos autovalores e autovetores do Laplaciano. Aplica-se o algoritmo de amostragem de sinais em grafos (ANIS; GADDE; ORTEGA, 2016) para selecionar o melhor conjunto de treinamento em um conjunto de dados. Estuda-se o efeito que a amostragem de sinais em grafos tem nos algoritmos de aprendizado semi-supervisionado. Propõe-se um algoritmo semi-supervisionado ativo baseado no algoritmo proposto por Anis, Gadde e Ortega (2016) e no algoritmo de propagação de rótulos LLGC (ZHOU et al., 2004). A proposta é modificar a matriz de similaridade dos dados, para considerar amostras da região de classificação incerta a cada iteração. Mostra-se através de experimentos numéricos que a proposta supera outras técnicas de aprendizado ativo, quando os dados rotulados são escassos. Nos experimentos são usados conjuntos de dados reais e artificiais.
Título em inglês
Signal Processing On Graphs: Sampling Theory and its Application in Active Semi-supervised Learning
Palavras-chave em inglês
Graph Fourier Transform
Sampling Theory
Semi-supervised Learning
Signal processing on graphs
Resumo em inglês
In the use of machine learning algorithms for classification tasks, it is assumed that there is a set of labeled examples, known as the training set. This set is used to train a classifier. However in many cases of actual application the training set may not be sufficient to train a good classifier. There is a class of supervised machine learning algorithms, known as semi-supervised algorithms. Semi-supervised algorithms assume that, along with the training set, there is a second set of unlabeled examples also available during training. One of the goals of semi-supervised algorithms is to train classifiers when a large number of unlabeled examples are available and the set of labeled examples is scarce. To address the problem of labeled data scarcity, a strategic choice of data to label for effective classification is proposed. In this work it is generalized the classical problem of sampling, it is considered the problem of sampling signals defined on graphs. The theory of sampling signals on graphs studies the problem of choosing the best subset of vertices for the perfect reconstruction of the original signal through its sample. In the study of signals through graphs the representation of the frequency domain is given by the eigenvalues and eigenvectors of the Laplacian. The graph signal sampling algorithm Anis, Gadde e Ortega (2016) is applied to select the best training set from a data set. We study the effect that signal sampling on graphs can have on semi-supervised learning algorithms. An active semi-supervised algorithm based on the algorithm proposed by (ANIS; GADDE; ORTEGA, 2016) and the label propagation algorithm LLGC (ZHOU et al., 2004) is proposed. The proposal is to modify the data similarity matrix to consider samples from the uncertain classification region at each iteration. It is shown through numerical experiments that the proposal outperform other active learning techniques, when the labeled data is scarce. In the experiments real and artificial data sets are used.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2020-03-23
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2020. Todos os direitos reservados.