• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2020.tde-16112020-155518
Document
Auteur
Nom complet
Julio Cesar Carnevali
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2020
Directeur
Jury
Lopes, Alneu de Andrade (Président)
Berton, Lilian
Jorge, Alípio Mário Guedes
Prudêncio, Ricardo Bastos Cavalcante
Titre en portugais
Aprendizado semissupervisionado baseado em uma única classe por meio de propagação de rótulos em grafos
Mots-clés en portugais
Aprendizado baseado em grafo
Aprendizado semissupervisionado baseado em uma única classe
Aprendizado transdutivo
Classificação de textos
Propagação de rótulos
Resumé en portugais
O aprendizado semissupervisionado baseado em uma única classe, amplamente conhecido pelo termo em inglês Positive and Unlabeled Learning (PUL), é um método atrativo para aplicações práticas, pois o usuário só precisa rotular documentos de seu interesse, evitando o esforço de rotular documentos para todas as classes da coleção, tarefa necessária nos métodos multiclasse. Além dos documentos de interesse do usuário, são utilizados também documentos não rotulados durante o processo de aprendizagem, para então classificar os documentos entre classe de interesse ou não (também denominados como documentos positivos e negativos respectivamente). Esse método de aprendizado pode ser utilizado para construir modelos de classificação, recuperação de informação, ou sistemas de recomendação. As abordagens PUL encontradas na literatura raramente fazem uso da representação de dados por meio de grafos. Dado que esse meio de representação de dados é pouco explorado no contexto de PUL, e dado que seu uso em abordagens do aprendizado semissupervisionado para classificação de textos produz resultados tão bons quanto e até melhores que abordagens baseadas no modelo espaço-vetorial, neste projeto de mestrado, é proposto uma abordagem baseada em grafo para PUL denominada, Label Propagation for Positive and Unlabeled Learning (LP-PUL). O método proposto consiste de 3 etapas: (i) construção do grafo para representação da coleção textual, (ii) identificação de documentos negativos, e (iii) propagação dos rótulos positivo e negativo para os demais documentos não rotulados. Foi realizada uma extensa avaliação empírica utilizando um grande número de coleções e parâmetros para cada algoritmo utilizado. Durante a avaliação, foi medido o impacto das diferentes escolhas de algoritmos para cada etapa acima mencionadas. Além disso, o método proposto foi comparado com algoritmos PUL baseados em grafos e no modelo espaço-vetorial. Ao final, foi demonstrado que o método proposto obtém melhor performance de classificação que os demais algoritmos PUL.
Titre en anglais
Positive and unlabeled learning through label propagation in graphs
Mots-clés en anglais
Graph-based learning
Label propagation
Positive and unlabeled learning
Text classification
Transductive learning
Resumé en anglais
Positive and Unlabeled Learning (PUL) is an attractive learning approach for real applications since the user has to label only documents of his class of interest. Therefore, the user spends no effort to label documents of all classes in the collection, necessary task in the case of multiclass methods. In addition to the labeled interest documents, the PUL uses unlabeled documents to classify all the documents as documents of interest (positive documents) or not (negative documents). This learning approach can be used to train classification models, to perform information retrieval or recommendation systems. In the literature, the PUL approaches based on graphs are the minority, and the graph-based approaches used in the semi-supervised text classification task have proved to surpass the classification performance of the vector space model-based approaches. Based on these statements, we proposed a graph-based approach for PUL, called Label Propagation for Positive and Unlabeled Learning (LP-PUL). The proposed framework consists of three steps: (i) building a similarity graph, (ii) identifying reliable negative documents, and (iii) performing label propagation to classify the remaining unlabeled documents as positive or negative. We carried out an extensive empirical evaluation using several text collections and parameters for each algorithm. The empirical evaluation measured the impact of the different algorithms for each step of the proposed framework. We also compared the proposed algorithm with vector space-based and graph-based ones, and then was demonstrated that the proposal surpasses the classification performances of other PUL algorithms.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-11-16
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.