• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.45.2021.tde-05052021-040638
Document
Auteur
Nom complet
Pamela Rosy Revuelta Quintanilla
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2020
Directeur
Jury
Silva, Flavio Soares Correa da (Président)
Araujo, Roberto Cássio de
Rocha, Ricardo Luis de Azevedo da
Titre en anglais
Comparing vector document representation methods for authorship identification
Mots-clés en anglais
Authorship attribution
Complex networks
Feature extraction
Graph embeddings
Machine Learning
Text classification
Word embeddings
Resumé en anglais
Over the years the information available in online media has had a great increase. In this sense, the automation of processing languages natural for large amounts of information gained importance, for example, text classification task. It can be used to identify the author (Authorship Identification); however, it requires Machine Learning techniques to identify the author, these techniques have given good results in NLP. In addition, Machine Learning receives the feature vector of the texts, which is extracted using vector document representation methods. The methods proposed for this research are grouped into three different approaches: i) methods based on vector space models, ii) methods based on word embeddings, and iii) methods based on graph embeddings, for this approach, we first model the texts as graphs. On the other hand, not all the methods are used for different languages because they can have different efficiency depending on the language of the analyzed texts. Therefore, the objective of this research is to compare several of these methods using literary texts in English and Spanish. In this way, we analyze whether the methods are efficient to represent several languages or its performance depends on the characteristic of every language. The results showed that the methods of Graph embeddings achieved the best performance for both languages, being that English reached a fairly high success rate. On the other hand, the other methods achieved good performance for English, however, the results for Spanish were not optimal. We believe that the results in Spanish were worse due to the morphological, lexical, and syntactic complexity that this language presents in comparison to English. For this reason, different approaches were compared for the mathematical representation of texts that try to cover the different aspects of a language.
Titre en portugais
Comparando métodos de representação vectorial de documentos para identificação de autoria
Mots-clés en portugais
Aprendizado máquina
Atribuição de autoria
Classificação de texto
Extração de características
Graph embedding
Redes complexas
Word embeddings
Resumé en portugais
Com o passar dos anos, as informações disponíveis na mídia online tiveram um grande aumento. Nesse sentido, ganhou importância a automatização de processamento de linguagens natural para grandes quantidades de informação, por exemplo, a tarefa de classificação de textos. Esta tarefa pode ser usada para identificar o autor, atribução de autoria, mas precisa de técnicas de Aprendizado Máquina para identificá-lo, o que têm dado bons resultados no PLN. Além disso, Aprendizado Máquina recebe o vetor característico dos textos os quais são extraídos utilizando métodos de representação vetorial de documentos. Os métodos propostos para esta investigação estão agrupados em três abordagens: i) métodos baseados em modelos de espaço vetorial, ii) métodos baseados em Word embeddings, e iii) métodos baseados em Graph embeddings, para esta abordagem, primeiro modelamos os textos como grafos. Por outro lado, nem todos os métodos são usados para diferentes idiomas, porque pode ter diferentes eficiências, dependendo do idioma dos textos analisados. Então, o objetivo desta pesquisa é comparar vários desses métodos utilizando textos literários em inglês e espanhol. Desta forma, nós analisamos se os métodos são eficientes para representar várias linguagens ou seu desempenho depende das características de cada linguagem. Os resultados mostraram que os métodos de Graph embeddings obtiveram bom desempenho para as duas linguagens, sendo que para o inglês alcançaram uma taxa de sucesso bastante elevada. Por outro lado, os demais métodos obtiveram bom desempenho para o inglês, porém os resultados para o espanhol não foram os ideais. Acreditamos que os resultados em espanhol foram piores devido à complexidade morfológica, lexical e sintática que este idioma apresenta em comparação ao inglês. Por esse motivo, foram comparadas diferentes abordagens para a representação matemática de textos que procuram abranger os diferentes aspectos de uma língua.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2021-06-14
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2021. Tous droits réservés.