Tese de Doutorado
Documento
Tese de Doutorado
Autor
Nome completo
Lucas Francisco Amaral Orosco Pellicer
E-mail
Unidade da USP
Escola Politécnica
Área do Conhecimento
Data de Defesa
2024-12-10
Imprenta
São Paulo, 2024
Orientador
Banca examinadora
Costa, Anna Helena Reali (Presidente)
Carvalho, Aline Marins Paes
Marcacini, Ricardo Marcondes
Moreira, Viviane Pereira
Pardo, Thiago Alexandre Salgueiro
Título em português
Aumento de dados com geração palavras-chaves para texto com grandes modelos de linguagem.
Palavras-chave em português
Aprendizado computacional, Aprendizado Few-Shot, Aumento de dados, Geração de texto
Resumo em português
Um problema clássico em Processamento de Linguagem Natural (PLN) é a classificação de textos, que é crucial para diversas tarefas, como análise de sentimentos, identificação de tópicos, categorização de tópicos e definição de temas em textos científicos. Esses modelos requerem grandes volumes de dados no treinamento para atingir um desempenho ideal, o que pode ser inviável obter tal quantidade de dados em muitos cenários. Consequentemente, técnicas como o Aumento de Dados são de particular interesse para mitigar as limitações de dados. Técnicas de geração automática de texto estão na vanguarda do aumento de dados de texto; no entanto, esses métodos frequentemente apresentam limitações em contextos de escassez de dados. Neste estudo, propomos o Prompt Key Augment (PKA), uma nova técnica de aumento de texto que aproveita a modelagem de Aprendizado Few-shot para lidar com a escassez de dados. Comparamos essa técnica com outros algoritmos de aumento de dados em aplicações de classificação, onde nossa abordagem PKA mostrou-se competitiva e superou outros algoritmos em diversos cenários. Além disso, realizamos uma análise de desempenho dos parâmetros mais relevantes para determinar a combinação que melhor otimiza o desempenho da nossa abordagem.
Título em inglês
Text augmentation with key-to-text generation with large language models.
Palavras-chave em inglês
Data augmentation, Few-Shot learning, Machine learning, Text generation
Resumo em inglês
A classic problem in Natural Language Processing (NLP) is text classification, which is crucial for various tasks such as sentiment analysis, topic identification, topic categorization, and defining themes in scientific texts. These models require large volumes of training data to achieve optimal performance, which may make it impractical to obtain such an amount of data in many scenarios. Consequently, techniques such as Data Augmentation are of particular interest to mitigate data limitations. Automatic text generation techniques are at the forefront of text data augmentation; however, these methods often exhibit limitations in data-scarce contexts. In this thesis, we propose Prompt Key Augment (PKA), a text augmentation technique that leverages Few-shot Learning modeling to address data scarcity. We compare this technique with other data augmentation algorithms in classification applications, where our PKA approach proved to be competitive and outperformed other algorithms in several scenarios. Additionally, we conducted a performance analysis of the most relevant parameters to determine the combination that best optimizes the performance of our approach.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2025-05-07
Trabalhos decorrentes
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.