• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.100.2020.tde-06022020-120251
Document
Auteur
Nom complet
José Eleandro Custódio
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2020
Directeur
Jury
Paraboni, Ivandre (Président)
Fernandez Tuesta, Esteban
Rezende, Solange Oliveira
Titre en portugais
Atribuição autoral de textos digitais
Mots-clés en portugais
Part-of-speech. POS
Word embedding
Aprendizado de máquina
Atribuição autoral
Distorções textuais
Identificação autoral
PLN
Processamento de língua natural
Resumé en portugais
A atribuição autoral de textos digitais (AA) visa identificar quem é o autor de um determinado texto a partir de um conjunto de autores possíveis. Sua aplicação pode ajudar na solução de casos de escândalos de corrupção, na identificação de abusos na utilização da internet, na detecção de notícias falsas, na detecção de pseudônimos e outros. Esse trabalho apresenta um estudo que usou n-gramas de caracteres, de palavras, de anotações linguísticas (POS), modelos de representação distribuída (embeddings). Foram aplicados métodos de aprendizado de máquina e proposto um método para combinar diversos modelos. Os resultados foram avaliados nos domínios literatura, letras de músicas e mensagens de microblogs
Titre en anglais
Authorship Attribution of digital texts
Mots-clés en anglais
Author identification
Authorship attribuition
Embedding
Machine learning
Natural language processing
NLP
Part-of-speech. POS
Text distortion
Resumé en anglais
Authorship attribution (AA) of digital text is a computational task which aims to identify who is the author of a text given a set of candidate authors. Its application may help to solve corruption scandals, identification of abuses on internet usage, fake news detection or pseudonyms detection. Computational methods for AA includes multivariate statistics and machine learning. This work presents a study that used n-grams of characters, words, linguistic annotations (POS) and word embeddings models. Machine learning methods were applied and it was proposed a method to combine several models. Results were evaluated in literature, song lyrics and microblogging domains
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-03-24
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2021. Tous droits réservés.