Aumento de dados com geração palavras-chaves para texto com grandes modelos de linguagem.

Pellicer, Lucas Francisco Amaral Orosco

doi:10.11606/T.3.2024.tde-06052025-083820

Tese de Doutorado

DOI

10.11606/T.3.2024.tde-06052025-083820

Documento

Tese de Doutorado

Autor

Pellicer, Lucas Francisco Amaral Orosco ( )

Nome completo

Lucas Francisco Amaral Orosco Pellicer

E-mail

Unidade da USP

Escola Politécnica

Programa ou Especialidade

Engenharia de Computação

Data de Defesa

2024-12-10

Imprenta

São Paulo, 2024

Orientador

Costa, Anna Helena Reali ( )

Banca examinadora

Costa, Anna Helena Reali (Presidente)

Carvalho, Aline Marins Paes

Marcacini, Ricardo Marcondes

Moreira, Viviane Pereira

Pardo, Thiago Alexandre Salgueiro

Título em português

Aumento de dados com geração palavras-chaves para texto com grandes modelos de linguagem.

Palavras-chave em português

Aprendizado computacional, Aprendizado Few-Shot, Aumento de dados, Geração de texto

Resumo em português

Um problema clássico em Processamento de Linguagem Natural (PLN) é a classificação de textos, que é crucial para diversas tarefas, como análise de sentimentos, identificação de tópicos, categorização de tópicos e definição de temas em textos científicos. Esses modelos requerem grandes volumes de dados no treinamento para atingir um desempenho ideal, o que pode ser inviável obter tal quantidade de dados em muitos cenários. Consequentemente, técnicas como o Aumento de Dados são de particular interesse para mitigar as limitações de dados. Técnicas de geração automática de texto estão na vanguarda do aumento de dados de texto; no entanto, esses métodos frequentemente apresentam limitações em contextos de escassez de dados. Neste estudo, propomos o Prompt Key Augment (PKA), uma nova técnica de aumento de texto que aproveita a modelagem de Aprendizado Few-shot para lidar com a escassez de dados. Comparamos essa técnica com outros algoritmos de aumento de dados em aplicações de classificação, onde nossa abordagem PKA mostrou-se competitiva e superou outros algoritmos em diversos cenários. Além disso, realizamos uma análise de desempenho dos parâmetros mais relevantes para determinar a combinação que melhor otimiza o desempenho da nossa abordagem.

Título em inglês

Text augmentation with key-to-text generation with large language models.

Palavras-chave em inglês

Data augmentation, Few-Shot learning, Machine learning, Text generation

Resumo em inglês

A classic problem in Natural Language Processing (NLP) is text classification, which is crucial for various tasks such as sentiment analysis, topic identification, topic categorization, and defining themes in scientific texts. These models require large volumes of training data to achieve optimal performance, which may make it impractical to obtain such an amount of data in many scenarios. Consequently, techniques such as Data Augmentation are of particular interest to mitigate data limitations. Automatic text generation techniques are at the forefront of text data augmentation; however, these methods often exhibit limitations in data-scarce contexts. In this thesis, we propose Prompt Key Augment (PKA), a text augmentation technique that leverages Few-shot Learning modeling to address data scarcity. We compare this technique with other data augmentation algorithms in classification applications, where our PKA approach proved to be competitive and outperformed other algorithms in several scenarios. Additionally, we conducted a performance analysis of the most relevant parameters to determine the combination that best optimizes the performance of our approach.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

LucasFranciscoCorr25.pdf

Data de Publicação

2025-05-07

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.