Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models

Santos, Brucce Neves dos

doi:10.11606/T.55.2023.tde-25032024-112903

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.55.2023.tde-25032024-112903

Document

Thèse de Doctorat

Auteur

Santos, Brucce Neves dos (Catálogo USP)

Nom complet

Brucce Neves dos Santos

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2023-11-27

Editeur

São Carlos, 2023

Directeur

Rezende, Solange Oliveira (Catálogo USP)
Marcacini, Ricardo Marcondes - (Codirecteur) (Catálogo USP)

Jury

Rezende, Solange Oliveira (Président)
Carneiro, Murillo Guimarães
Carvalho, Veronica Oliveira de
Liang, Zhao

Titre en anglais

Heterogeneous Graphs for Text Representation: An Integrated Approach with Language Models

Mots-clés en anglais

Heterogeneous networks
Language models
Opinion mining
Representation learning
Unified embedding space

Resumé en anglais

Data representation through graphs is essential for analyzing complex relationships in fields like computer science and biology. In real-world scenarios, relationships between vertices do not always follow a uniform pattern, creating the need for heterogeneous graphs representing different types of vertices and various relationships in complex systems. However, heterogeneous graphs come with challenges. Due to the diversity of vertices and types of relationships, the inherent complexity of these structures makes understanding and analyzing them more complex than homogeneous graphs. To address this challenge, several machine learning models specific to heterogeneous graphs have been developed to comprehend the semantics of relationships between entities. Text representation in heterogeneous graphs is also challenging due to the lack of structure in textual data, which can lead to information loss. Additionally, heterogeneous graphs struggle to capture detailed semantic information in texts as they are primarily designed to represent formal structures and structural relationships. Resolving textual ambiguities is also complex for heterogeneous graphs, requiring a deep understanding of textual context. While language models excel at text comprehension, they may not be suitable for representing complex entities and relationships in real-world systems. Accurately identifying entities mentioned in texts and their relationships with real-world entities can be challenging. The integration of heterogeneous graphs and language models offers a promising solution. It combines the structural knowledge of heterogeneous graphs with the textual understanding of language models, resulting in embeddings that incorporate both the structural complexity of graphs and natural language text understanding. This approach can enhance performance in natural language processing, recommendation, and information retrieval tasks. This doctoral thesis focuses on overcoming the limitations of heterogeneous graphs in representing semantic information in texts. The proposal is to combine heterogeneous graphs with language models, leveraging the advantages of both approaches. While graphs represent structures and relationships, language models specialize in efficiently understanding and generating text. The underlying hypothesis is that this combination will result in richer data representations, improving performance in complex data analyses. This thesis introduces a two-stage approach that combines label propagation techniques and language model embeddings to generate vector representations of vertices in heterogeneous graphs. In this approach, the EPHG-CR (Embedding Propagation for Heterogeneous Graphs with Class Refinement) method is proposed, which differentiates itself by considering not only edge weights but also vertex relevance to task classes, bringing vertices with the same class closer together, taking into account the graphs topology. This approach was compared with a language model in the aspect-based sentiment analysis task, showing competitive results and, in some cases, slight superiority. Furthermore, the article explores applications of auxiliary vertex embeddings in other tasks, demonstrating another advantage of the approach.

Titre en portugais

Grafos Heterogêneos para Representação de Texto: Uma Abordagem Integrada com Modelos de Linguagem

Mots-clés en portugais

Aprendizado de representação
Embedding space unificado
Mineração de opiniões
Modelos de linguagem
Redes heterogêneas

Resumé en portugais

A representação de dados por meio de grafos é fundamental para analisar relacionamentos complexos em áreas como ciência da computação e biologia. Em cenários do mundo real, os relacionamentos entre vértices nem sempre seguem um padrão uniforme, criando a necessidade de grafos heterogêneos, capazes de representar diferentes tipos de vértices e uma ampla variedade de relacionamentos em sistemas complexos. No entanto, os grafos heterogêneos apresentam desafios. A complexidade inerente dessas estruturas, devido à diversidade de vértices e tipos de relacionamentos, torna a compreensão e análise mais complexas em comparação com grafos homogêneos. Para enfrentar esse desafio, existem diversos modelos de aprendizado de máquina específicos para grafos heterogêneos que foram desenvolvidos, buscando compreender a semântica dos relacionamentos entre entidades. A representação de texto em grafos heterogêneos é também desafiadora devido à falta de estrutura nos dados textuais, podendo levar à perda de informações. Além disso, os grafos heterogêneos têm dificuldade em capturar informações semânticas detalhadas presentes em textos, pois são projetados principalmente para representar estruturas formais e relacionamentos estruturais. A resolução de ambiguidades textuais também é complexa para os grafos heterogêneos, exigindo uma compreensão profunda do contexto textual. Embora os modelos de linguagem sejam bons na compreensão textual, podem não ser adequados para representar entidades e relacionamentos complexos em sistemas do mundo real. A identificação precisa de entidades mencionadas em textos e suas relações com entidades do mundo real pode ser um desafio. A integração de grafos heterogêneos e modelos de linguagem oferece uma solução promissora. Isso combina a estrutura de conhecimento dos grafos heterogêneos com a compreensão textual dos modelos de linguagem, resultando em embeddings que incorporam a complexidade estrutural dos grafos e a compreensão do texto natural. Essa abordagem pode melhorar o desempenho em tarefas como processamento de linguagem natural, recomendação e busca de informações. Esta tese de doutorado se concentra em superar as limitações dos grafos heterogêneos na representação de informações semânticas em textos. A proposta é combinar grafos heterogêneos com modelos de linguagem, aproveitando as vantagens de ambas as abordagens. Enquanto os grafos representam estruturas e relacionamentos, os modelos de linguagem são especializados em compreender e gerar texto eficientemente. A hipótese subjacente é que essa combinação resultará em representações mais ricas de dados, melhorando o desempenho em análises de dados complexos. Essa tese introduz uma abordagem em dois estágios que combina técnicas de propagação de rótulos e embeddings de modelos de linguagem para gerar representações vetoriais de vértices em grafos heterogêneos. Nessa abordagem é proposto o método EPHG-CR (Embedding Propagation for Heterogeneous Graphs with Class Refinement), que possui o diferencial de considerar não apenas o peso das arestas, mas também a pertinência dos vértices às classes da tarefa, aproximando vértices com a mesma classe, levando em conta a topologia do grafo. Essa abordagem foi comparada com um modelo de linguagem na tarefa de análise de sentimentos baseada em aspectos, mostrando resultados competitivos e, em alguns casos, ligeiramente superiores. Além disso, o artigo explora aplicações das embeddings dos vértices auxiliares em outras tarefas mostrando outra vantagem da abordagem.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

BrucceNevesdosSantos_DO_revisada.pdf (4.46 Mbytes)

Date de Publication

2024-03-25

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.