• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.100.2020.tde-24012020-202805
Document
Auteur
Nom complet
Rafael Felipe Sandroni Dias
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2019
Directeur
Jury
Paraboni, Ivandre (Président)
Caseli, Helena de Medeiros
Lauretto, Marcelo de Souza
Peres, Sarajane Marques
Titre en portugais
Caracterização autoral a partir de textos utilizando redes neurais artificiais
Mots-clés en portugais
Caracterização autoral
Redes Neurais Artificiais
Word Embeddings
Resumé en portugais
A caracterização autoral (CA) é uma tarefa computacional de reconhecimento de características de autores de textos com base em seus padrões linguísticos. O uso de modelos computacionais de CA permite inferir características sociais a partir do texto, mesmo que os autores não escolham conscientemente colocar indicadores dessas características no texto. A tarefa de CA pode ser importante para diversas aplicações práticas, tais como análise forense e marketing. Abordagens tradicionais de CA muitas vezes utilizam conhecimento linguístico, que exige conhecimento prévio e demanda esforço manual para extração de características. Recentemente, o uso de redes neurais artificiais têm demonstrado resultado satisfatório em problemas de processamento de linguagem natural (PLN), entretanto, para caracterização autoral, apresenta um nível variado de sucesso. Este trabalho tem o objetivo de organizar, definir e explorar diversas tarefas de caracterização autoral a partir de córpus textuais, abrangendo três idiomas (i.e., português, inglês e espanhol) e quatro domínios textuais (i.e., redes sociais, questionários, SMS e blogs). Foram propostos seis modelos baseados em redes neurais e Word Embeddings, comparando-se com sistemas de baseline utilizando regressão logística e TF-IDF. Os resultados dos modelos de Long Short Term Memory (LSTM) with self-attention e Convolutional Neural Network (CNN) sugerem que tais técnicas apresentam desempenho superior ao baseline quando córpus grandes são utilizados. Os modelos de LSTM with self-attention baseados em representação de Word Embeddings e Char apresentam desempenho superior ao estado da arte da competição PAN-CLEF 2013
Titre en anglais
Author Profiling from texts using artificial neural networks
Mots-clés en anglais
Artificial Neural Networks
Author Profiling
Word Embeddings
Resumé en anglais
Author Profiling (AP) is a computational task of recognizing the characteristics of text authors based on their linguistic patterns. The use of computer computational models allows us to infer social characteristics from the text, even if the authors do not consciously choose to place indicators of these characteristics in the text. The AP task can be important for many practical applications, such as forensic analysis and marketing. Traditional AP approaches often use language knowledge, which requires prior knowledge and requires manual effort to extract features. Recently, the use of artificial neural networks has shown satisfactory results in natural language processing (NLP) problems, however, for author profiling, presents a varied level of success. This paper aims to organize, define and explore various authorial characterization tasks from the textual corpus considered, covering three languages (i.e, Portuguese, English and Spanish) and four textual domains (i.e., social networks, questionnaires, SMS and blogs) . Six models based on neural networks and Word Embeddings were proposed, compared with baseline systems using logistic regression and TF-IDF. The results suggest that the Long Short Term Memory with self-attention and Convolutional Neural Network models outperform baseline system in larger volume corpus. The LSTM with self-attention model based on Word Embeddings and Char text representation outperform the state-of-the-art PAN-CLEF 2013 competition
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2020-02-12
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2020. Tous droits réservés.