• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2023.tde-22122023-125502
Documento
Autor
Nome completo
Mariana Caravanti de Souza
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2023
Orientador
Banca examinadora
Rezende, Solange Oliveira (Presidente)
Carvalho, Aline Marins Paes
Covões, Thiago Ferreira
Pardo, Thiago Alexandre Salgueiro
Título em português
Detecção de notícias falsas usando poucos dados positivos rotulados
Palavras-chave em português
Aprendizado de uma única classe
Aprendizado positivo e não rotulado
Aprendizado semissupervisionado
Detecção de notícias falsas
Redes heterogêneas
Resumo em português
O avanço da tecnologia tem permitido a disseminação de notícias falsas em larga escala. Criadas para manipular a perspectiva de usuários, atrair sua postura ideológica e instigá-los a compartilhar a informação, notícias falsas vêm se tornando mais suscetíveis a enganar o público alvo. Métodos de Aprendizado de Máquina têm sido utilizados como estratégia promissora para auxiliar na detecção de conteúdo falso, cujo problema geralmente é modelado com algoritmos de aprendizado binário ou multiclasse. No entanto, um dos desafios é definir um conjunto de notícias representativo e conciso para treinar os algoritmos, devido (i) ao desbalanceamento naturalmente latente entre a quantidade de notícias verdadeiras e falsas disponíveis; (ii) a dinamicidade na qual notícias falsas evoluem, cada vez mais convincentes e semelhantes a notícias verídicas; (iii) além da dificuldade em se rotular uma grande quantidade de notícias, sendo necessário a checagem de cada fato relatado no conteúdo da publicação. Considerando a dificuldade na rotulação de notícias falsas (exemplos de interesse, ou positivos) enquanto a caracterização de notícias verdadeiras é ampla (exemplos não interessantes, ou negativos), neste projeto é proposta uma abordagem para detecção de notícias falsas que caracteriza o problema por meio de Aprendizado de Uma Única Classe (OCL). Algoritmos OCL aprendem modelos de classificação considerando apenas informações da classe de interesse. Além disso, métodos de Aprendizado Positivo e Não Rotulado (PUL) utilizam informações de dados não rotulados com o intuito de aumentar o desempenho de classificação. Neste trabalho são propostas abordagens baseadas no algoritmo Positive and Unlabeled Learning by Label Propagation (PU-LP), um algoritmo PUL baseado em redes de similaridade. PU-LP identifica potenciais exemplos da classe positiva e negativa, e posteriormente um algoritmo semissupervionado realiza a classificação dos demais nós não rotulados. São avaliadas diferentes configurações de rede e algoritmos de classificação semissupervisionados em seis bases de notícias que apresentam cenários distintos quanto a linguagem, tópicos, tipo de coleta e balanceamento entre as classes. Experimentos indicam que redes compostas por notícias e termos representativos podem beneficiar o desempenho da abordagem, que é capaz de indetificar notícias falsas com até 94% de F1 usando 10% de dados positivos rotulados.
Título em inglês
Fake news detection using few positive labels
Palavras-chave em inglês
Fake news detection
Heterogeneous networks
One class learning
Positive and unlabeled learning
Semi-supervised learning
Resumo em inglês
The advancement of technology has allowed the spread of fake news on a large scale. Fake news is created to manipulate users perspectives, attract their ideological stance and instigate them to share information, and it is becoming more susceptible to misleading the target audience. Machine Learning methods have been used as a promising strategy to detect fake content, whose problem is usually modeled with binary or multiclass learning algorithms. However, one of the challenges is to define a representative and concise set of news to train the algorithms due to (i) the naturally latent imbalance between the amount of true and false news available; (ii) the dynamism in which fake news evolves, increasingly convincing and similar to accurate news; (iii) in addition to the difficulty in labeling a large amount of news, it is necessary to check each fact reported in the publications content. Considering the difficulty in labeling fake news (examples of interest or positive) while the characterization of true news is broad (not interesting or negative examples), this project proposes an approach for detecting fake news that characterizes the problem through One-Class Learning (OCL). OCL algorithms learn classification models considering only information from the class of interest. In addition, Positive Learning and Unlabeled (PUL) methods use information from unlabeled data to increase classification performance. This work proposes approaches based on the Positive and Unlabeled Learning by Label Propagation (PU-LP) algorithm, a PUL algorithm based on similarity networks. PU-LP identifies potential examples of the positive and negative class, and subsequently, a semi-supervised algorithm calculates the remaining unlabeled nodes. Different network configurations and semi-supervised classification algorithms are evaluated in six news bases that present different scenarios regarding language, topics, type of collection, and balance between classes. Experiments indicate that networks composed of news and representative terms can improve the performance of the approach, which is capable of identifying fake news with up to a 94% F1 score using 10% of labeled positive data.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2023-12-22
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.