Avaliação de representações embeddings para similaridade sentencial no Português

Rodrigues, Ana Carolina

doi:10.11606/D.55.2023.tde-02062023-105741

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.55.2023.tde-02062023-105741

Documento

Disertación de Maestría

Autor

Rodrigues, Ana Carolina (Catálogo USP)

Nombre completo

Ana Carolina Rodrigues

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2023-03-02

Publicación

São Carlos, 2023

Director

Marcacini, Ricardo Marcondes (Catálogo USP)

Tribunal

Marcacini, Ricardo Marcondes (Presidente)
Bernardini, Flávia Cristina
Camargo, Heloisa de Arruda
Pardo, Thiago Alexandre Salgueiro

Título en portugués

Avaliação de representações embeddings para similaridade sentencial no Português

Palabras clave en portugués

Aprendizado de máquina
Embeddings
Português
Similaridade sentencial
STS

Resumen en portugués

O mapeamento de texto para representações numéricas que possam ser processadas computacionalmente tornou-se uma etapa essencial no processamento de língua natural (PLN). Mais especificamente, representações vetoriais densas de números reais, conhecidas como embeddings, associadas ao uso de algoritmos de aprendizado de máquina baseados em arquiteturas de redes neurais ganharam notoriedade na última década com resultados significativos na área. Existem diversos métodos para gerar estas representações e uma forma tradicionalmente empregada para testá-los é através da identificação de similaridade semântica textual (STS), tarefa na qual o objetivo é determinar o valor de similaridade entre duas sentenças, dado pela anotação humana dos dados a partir de uma escala pré-determinada. Nos últimos anos, o estabelecimento de modelos com arquitetura baseada em Transformers introduziu uma variedade de modelos de embeddings pré-treinados que tem sido utilizados de forma bem-sucedida no Inglês. Para o Português, versões multilíngues e, em menor grau, específicas para língua, recentemente ampliaram as alternativas a serem exploradas para STS. Existem duas formas de empregar modelos de representações pré-treinadas: embeddings podem servir como entrada fixa em algoritmo preditivos ou o modelo que a gera acoplado de forma interativa como parte do algoritmo, permitindo que as representações sejam atualizadas para um fim específico. Desta forma, o papel das representações no processamento de língua para similaridade não fica bem definido, uma vez que os resultados são fruto do sistema como um todo, representações mais algoritmo preditivo. Neste trabalho, investigamos modelos de representações na tarefa de STS considerando diferentes aspectos, sendo os principais: (i) Avaliamos o impacto da escolha do modelo de representação nos resultados em relação aos hiperparâmetros do algoritmo preditivo. (ii) Partindo da hipótese que diferentes modelos codificam características distintas do texto as quais podem ser complementarmente relevantes, testamos combinações de modelos de representações sentenciais pré-treinadas como forma de melhorar o desempenho na predição similaridade sentencial no Português. (iii) Testamos a capacidade de generalização dos resultados de STS no Português de dois modelos para além do dataset original. Os principais resultados obtidos indicam que (i) a escolha do modelo de representação é determinante para o desempenho na tarefa, levando à diferentes faixas de resultados (ii) o uso de modelos em conjunto em uma arquitetura simples é uma alternativa para melhorar o desempenho na tarefa em relação ao uso de modelos sozinhos.

Título en inglés

Evaluation of embedding representations for sentential similarity in Portuguese

Palabras clave en inglés

Embeddings
Machine learning
Portuguese
Sentence similarity
STS

Resumen en inglés

Mapping text into numerical representations that can be computationally processed has become an essential step in natural language processing (NLP). More specifically, dense vector representations of real numbers, known as embeddings, and associated with machine learning algorithms based on neural network architectures have gained notoriety in the last decade with significant results in the area. There are several methods to generate these representations and a traditional way to test them is through the identification of semantic textual similarity (STS), a task whose objective is to determine the similarity score between two sentences, given by human annotation based on a pre-defined scale. In recent years, the establishment of models based on Transformers introduced a variety of pre-trained embedding models that have been used successfully in English. Concerning Portuguese, multilingual and, to a lesser extent, language specific versions, recently expanded the alternatives to be explored for STS. There are two ways to make use of pre-trained representation models, embeddings can serve as fixed input in predictive algorithms, or the model that generates them being connected as part of the algorithm in an interactive manner, in which representations are tuned for a specific purpose. Since results come from the entire system, representations plus predictive algorithm, the part of representations in language processing for similarity is not well defined. In this work, we investigated representation models in the STS task considering different aspects, mainly: (i) We evaluated the impact of representation models in the results compared with the hyperparameters of the predictive algorithm. (ii) Starting from the hypothesis that different models encode distinct features of the text, and they can be complementarily relevant, we tested combinations of pre-trained sentence representation models as a way to improve the performance of sentence similarity prediction in Portuguese. (iii) We tested the generalizability of STS results in Portuguese of two models in addition to the original dataset. The main results obtained indicate that (i) the choice of the representation model is decisive for the performance in the task, leading to the distinct ranges of results (ii) the use of multiple models combined in a simple architecture is an alternative to improve performance in the task compared to the use of models alone.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

AnaRodrigues_ME_revisada.pdf (1.86 Mbytes)

Fecha de Publicación

2023-06-02

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.