• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.55.2020.tde-16112020-155518
Document
Author
Full name
Julio Cesar Carnevali
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2020
Supervisor
Committee
Lopes, Alneu de Andrade (President)
Berton, Lilian
Jorge, Alípio Mário Guedes
Prudêncio, Ricardo Bastos Cavalcante
Title in Portuguese
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos
Keywords in Portuguese
Aprendizado baseado em grafo
Aprendizado semissupervisionado baseado em uma única classe
Aprendizado transdutivo
Classificação de textos
Propagação de rótulos
Abstract in Portuguese
O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL.
Title in English
Positive and unlabeled learning through label propagation in graphs
Keywords in English
Graph-based learning
Label propagation
Positive and unlabeled learning
Text classification
Transductive learning
Abstract in English
Positive and Unlabeled Learning (PUL) is an attractive learning approach for real applications since the user has to label only documents of his class of interest. Therefore, the user spends no effort to label documents of all classes in the collection, necessary task in the case of multiclass methods. In addition to the labeled interest documents, the PUL uses unlabeled documents to classify all the documents as documents of interest (positive documents) or not (negative documents). This learning approach can be used to train classification models, to perform information retrieval or recommendation systems. In the literature, the PUL approaches based on graphs are the minority, and the graph-based approaches used in the semi-supervised text classification task have proved to surpass the classification performance of the vector space model-based approaches. Based on these statements, we proposed a graph-based approach for PUL, called Label Propagation for Positive and Unlabeled Learning (LP-PUL). The proposed framework consists of three steps: (i) building a similarity graph, (ii) identifying reliable negative documents, and (iii) performing label propagation to classify the remaining unlabeled documents as positive or negative. We carried out an extensive empirical evaluation using several text collections and parameters for each algorithm. The empirical evaluation measured the impact of the different algorithms for each step of the proposed framework. We also compared the proposed algorithm with vector space-based and graph-based ones, and then was demonstrated that the proposal surpasses the classification performances of other PUL algorithms.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2020-11-16
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2022. All rights reserved.