Disertación de Maestría
DOI
https://doi.org/10.11606/D.100.2022.tde-05052022-094458
Documento
Autor
Nombre completo
Alex Gwo Jen Lan
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Paulo, 2022
Director
Tribunal
Paraboni, Ivandre (Presidente)
Pardo, Thiago Alexandre Salgueiro
Ruiz, Evandro Eduardo Seron
Título en portugués
Classificação computacional de fundamentos morais a partir de texto
Palabras clave en portugués
Análise de Sentimentos
Caracterização Autoral
Classificação de texto
Fundamentos morais
Resumen en portugués
A identificação de valores morais em textos e discursos humanos contribui essencialmente para a compreensão de conflitos sociais motivados pelas diferenças de moralidade, além de comportamentos e posições ideológicas individuais. Em vista disso, muitas são as suas aplicações para a modelagem de problemas e eventos sociais, envolvendo análise de debates políticos, identificação de notícias falsas e a predição de eventos como protestos, campanhas eleitorais, por exemplo. O presente trabalho apresenta um estudo de classificação de categorias morais a partir de textos pautado sobre a Teoria dos Fundamentos Morais (TFM) com a utilização de métodos supervisionados de aprendizado de máquina. Estas categorias consistem em Cuidado, Justiça, Lealdade, Autoridade e Pureza. A tarefa é definida de duas formas sob a perspectiva do Processamento de Língua Natural (PLN). A primeira delas trata da classificação de fundamentos morais impessoais (CFMI), que é abordada de maneira similar às tarefas de análise de sentimentos, no sentido de que os fundamentos são referentes apenas ao significado expresso no texto. Por outro lado, a tarefa de classificação de fundamentos morais pessoais (CFMP), que é essencialmente inexplorada na literatura, define-se como uma instância de caracterização autoral, ou seja, considera a moralidade do autor do texto analisado, permitindo assim a captura de informação de classe não necessariamente explícita. Os trabalhos existentes são baseados em formas de representação textual mais tradicionais como Bag-Of-Words e word embeddings estáticos. Como forma de avançar o estado-da-arte nesses dois tipos de problema, este estudo propõe o desenvolvimento de modelos baseados em métodos de embeddings sensíveis ao contexto para as tarefas de CFMI e CFMP. De forma específica, foram conduzidos experimentos com estas duas tarefas nos idiomas em inglês, para CFMI, e português brasileiro, para CFMP, utilizando modelos como ELMo e BERT. Os resultados sugerem a eficácia no uso desses embeddings sensíveis ao contexto em CFMI e o potencial dos modelos de CFMP baseados em métodos como regressão logística com n-gramas de caracteres. Com isso, deixam-se oportunidades de futuros estudos na área, especialmente para PLN em português brasileiro
Título en inglés
Computational classification of moral foundations from text
Palabras clave en inglés
Author Profiling
Moral Foundations
Sentiment Analysis
Text Classification
Resumen en inglés
The identification of moral values in human texts and speeches essentially contributes to the understanding of social conflicts motivated by differences in morality, in addition to individual behaviours and ideological positions. For this reason, there are many applications based on moral identification for modelling social problems and events, involving analysis of political debates, fake news identification and prediction of events such as protests, election campaigns, for example. This work presents a study of moral categories classification from text based on Moral Foundations Theory using machine learning supervised methods. These categories consist of Care, Fairness, Loyalty, Authority e Purity. The task is defined in two ways from the perspective of Natural Language Processing (NLP). The first one deals with the impersonal moral foundations classification (IMFC), which is approached in a similar fashion to the tasks of sentiment analysis, in the way that foundations refer only to the meaning expressed in the text. On the other hand, the personal moral foundations classification (PMFC) task, which is essentially unexplored in the literature, defines itself as an instance of author profiling, that is, it considers the morality of the author of the analysed text, thus allowing the capture of class information that is not necessarily explicit. Existing works are based on more traditional methods of textual representation such as Bag-Of-Words and static word embeddings. As a way to advance the state-of-the-art in these two types of problems, this study proposes the development of models based on contextual-sensitive embeddings methods for IMFC and PMFC. Specifically, experiments were conducted with these two tasks in English, for IMFC, and Brazilian Portuguese, for PMFC, using models such as ELMo and BERT. The results suggest the effectiveness of using these contextual-sensitive embeddings in IMFC and the potential of PMFC models based on methods such as logistic regression with character n-grams. This provides opportunities for future studies, especially for NLP in Brazilian Portuguese
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2022-10-11