• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.55.2023.tde-22122023-125502
Documento
Autor
Nombre completo
Mariana Caravanti de Souza
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2023
Director
Tribunal
Rezende, Solange Oliveira (Presidente)
Carvalho, Aline Marins Paes
Covões, Thiago Ferreira
Pardo, Thiago Alexandre Salgueiro
Título en portugués
Detecção de notícias falsas usando poucos dados positivos rotulados
Palabras clave en portugués
Aprendizado de uma única classe
Aprendizado positivo e não rotulado
Aprendizado semissupervisionado
Detecção de notícias falsas
Redes heterogêneas
Resumen en portugués
O avanço da tecnologia tem permitido a disseminação de notícias falsas em larga escala. Criadas para manipular a perspectiva de usuários, atrair sua postura ideológica e instigá-los a compartilhar a informação, notícias falsas vêm se tornando mais suscetíveis a enganar o público alvo. Métodos de Aprendizado de Máquina têm sido utilizados como estratégia promissora para auxiliar na detecção de conteúdo falso, cujo problema geralmente é modelado com algoritmos de aprendizado binário ou multiclasse. No entanto, um dos desafios é definir um conjunto de notícias representativo e conciso para treinar os algoritmos, devido (i) ao desbalanceamento naturalmente latente entre a quantidade de notícias verdadeiras e falsas disponíveis; (ii) a dinamicidade na qual notícias falsas evoluem, cada vez mais convincentes e semelhantes a notícias verídicas; (iii) além da dificuldade em se rotular uma grande quantidade de notícias, sendo necessário a checagem de cada fato relatado no conteúdo da publicação. Considerando a dificuldade na rotulação de notícias falsas (exemplos de interesse, ou positivos) enquanto a caracterização de notícias verdadeiras é ampla (exemplos não interessantes, ou negativos), neste projeto é proposta uma abordagem para detecção de notícias falsas que caracteriza o problema por meio de Aprendizado de Uma Única Classe (OCL). Algoritmos OCL aprendem modelos de classificação considerando apenas informações da classe de interesse. Além disso, métodos de Aprendizado Positivo e Não Rotulado (PUL) utilizam informações de dados não rotulados com o intuito de aumentar o desempenho de classificação. Neste trabalho são propostas abordagens baseadas no algoritmo Positive and Unlabeled Learning by Label Propagation (PU-LP), um algoritmo PUL baseado em redes de similaridade. PU-LP identifica potenciais exemplos da classe positiva e negativa, e posteriormente um algoritmo semissupervionado realiza a classificação dos demais nós não rotulados. São avaliadas diferentes configurações de rede e algoritmos de classificação semissupervisionados em seis bases de notícias que apresentam cenários distintos quanto a linguagem, tópicos, tipo de coleta e balanceamento entre as classes. Experimentos indicam que redes compostas por notícias e termos representativos podem beneficiar o desempenho da abordagem, que é capaz de indetificar notícias falsas com até 94% de F1 usando 10% de dados positivos rotulados.
Título en inglés
Fake news detection using few positive labels
Palabras clave en inglés
Fake news detection
Heterogeneous networks
One class learning
Positive and unlabeled learning
Semi-supervised learning
Resumen en inglés
The advancement of technology has allowed the spread of fake news on a large scale. Fake news is created to manipulate users perspectives, attract their ideological stance and instigate them to share information, and it is becoming more susceptible to misleading the target audience. Machine Learning methods have been used as a promising strategy to detect fake content, whose problem is usually modeled with binary or multiclass learning algorithms. However, one of the challenges is to define a representative and concise set of news to train the algorithms due to (i) the naturally latent imbalance between the amount of true and false news available; (ii) the dynamism in which fake news evolves, increasingly convincing and similar to accurate news; (iii) in addition to the difficulty in labeling a large amount of news, it is necessary to check each fact reported in the publications content. Considering the difficulty in labeling fake news (examples of interest or positive) while the characterization of true news is broad (not interesting or negative examples), this project proposes an approach for detecting fake news that characterizes the problem through One-Class Learning (OCL). OCL algorithms learn classification models considering only information from the class of interest. In addition, Positive Learning and Unlabeled (PUL) methods use information from unlabeled data to increase classification performance. This work proposes approaches based on the Positive and Unlabeled Learning by Label Propagation (PU-LP) algorithm, a PUL algorithm based on similarity networks. PU-LP identifies potential examples of the positive and negative class, and subsequently, a semi-supervised algorithm calculates the remaining unlabeled nodes. Different network configurations and semi-supervised classification algorithms are evaluated in six news bases that present different scenarios regarding language, topics, type of collection, and balance between classes. Experiments indicate that networks composed of news and representative terms can improve the performance of the approach, which is capable of identifying fake news with up to a 94% F1 score using 10% of labeled positive data.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2023-12-22
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.