• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2023.tde-02042024-162451
Documento
Autor
Nombre completo
Bárbara Cortes e Souza
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2023
Director
Tribunal
Amancio, Diego Raphael (Presidente)
Boas, Paulino Ribeiro Villas
Bruno, Odemir Martinez
Comin, Cesar Henrique
Título en inglés
Employing syntactical dependency and a mesoscopic scale to model books' narratives through recurrence networks
Palabras clave en inglés
Complex networks
Mesoscopic scale
NLP
Recurrence networks
Syntactical dependency
Resumen en inglés
In recent years, science has been deeply impacted by the growing amount of data available for research. Specifically, the continuous increase of textual data availability has been essential for the development and proposal of new methodologies to tackle text processing problems. There are several new approaches that focus on different components of linguistics, such as lexicon, syntax and semantics. Natural Language Processing, for example, is a multidisciplinary field that concerns the interaction between natural languages and computers. Some examples of problems in this field are: topic detection, text classification, stylometry, automatic summarization, and others. Since natural languages are actually complex systems, it is also appropriate to represent them as complex networks, to help address these various challenges. One well known example of text modelling method is the word adjacency network, that maps each of the words in a text into nodes, and create an edge between any pair of terms that occur adjacent to each other in the text. In this Masters work, however, we focus on a larger, mesoscopic scale with the intent of capturing the overall context of a narrative. In this methodology, a single node refers to a sequence of paragraphs in the text, and the edges are created between the most similar ones. Additionally, we apply syntactical dependency knowledge to increase informativeness and, therefore, obtain a better performance on grasping the contextual semantics of the text. Finally, one can extract significant network measures in order to characterize it, including accessibility, symmetry and the new proposed recurrence signature, as a manner of capturing topological properties that reflect the narratives context. Several method validations have been performed, including a comparison with other trivial measures, two experiments to discriminate real from meaningless texts and between literary genres and, finally, a comparison of the current method to other orthodox approaches, namely co-occurrence networks and doc2vec.
Título en portugués
Aplicando dependência sintática e uma escala mesoscópica para modelar narrativas de livros a partir de redes de recorrência
Palabras clave en portugués
Dependência sintática
Escala mesoscópica
PLN
Redes complexas
Redes de recorrência
Resumen en portugués
Nos últimos anos, a ciência tem sido fortemente influenciada pelo contínuo aumento no volume de informações disponíveis à pesquisa. Especificamente, o crescimento da quantidade de dados textuais desempenhou um papel fundamental no desenvolvimento e na apresentação de novas metodologias para abordar desafios na área de processamento de textos. Diversas abordagens inovadoras têm surgido, com enfoque em diferentes componentes da linguística, como léxico, sintaxe e semântica. O Processamento de Linguagem Natural, por exemplo, é um campo multidisciplinar que aborda a interação entre linguagens naturais e computadores. Alguns exemplos de problemas dessa área são: detecção de tópicos, classificação de textos, estilometria, sumarização automática, entre outros. Dado que linguagens naturais são consideradas sistemas complexos, é apropriado que sejam representadas por redes complexas, para auxiliar na resolução desses diferentes tipos de problemas. Um conhecido método de modelagem de textos é a rede de adjacência de palavras, na qual cada nó mapeia uma palavra do texto e arestas são criadas entre termos que ocorrem em sequência no texto. Neste projeto de Mestrado, no entanto, o foco é em uma escala mesoscópica mais abrangente, visando a capturar o contexto geral da narrativa. Nessa metodologia, um nó se refere a uma sequência de parágrafos do texto, e arestas são criadas entre os mais similares. Adicionalmente, uma análise de dependência sintática é aplicada para aumentar o nível de informatividade e, portanto, obter uma performance superior em capturar o contexto semântico de um texto. Finalmente, é possível extrair medidas de rede significativas para sua caracterização, incluindo acessibilidade, simetria e a proposta Assinatura de Recorrência, como forma de capturar as propriedades topológicas que refletem o contexto narrativo. Diversas validações de método foram executadas, incluindo uma comparação com outras medidas de rede triviais, dois experimentos para diferenciar entre textos reais e randomizados e entre diferentes gêneros literários, e, finalmente, uma comparação do método proposto com outras abordagens mais ortodoxas na literatura: redes de co-ocorrência e doc2vec.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-04-02
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.