Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro

Sakiyama, Kenzo Miranda

doi:10.11606/D.55.2023.tde-18122023-153735

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.55.2023.tde-18122023-153735

Document

Mémoire de Maîtrise

Auteur

Sakiyama, Kenzo Miranda (Catálogo USP)

Nom complet

Kenzo Miranda Sakiyama

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2023-07-13

Editeur

São Carlos, 2023

Directeur

Romero, Roseli Aparecida Francelin (Catálogo USP)
Nogueira, Rodrigo Frassetto - (Codirecteur) (Catálogo USP)

Jury

Romero, Roseli Aparecida Francelin (Président)
Marcacini, Ricardo Marcondes
Moreira, Viviane Pereira
Ruiz, Evandro Eduardo Seron

Titre en portugais

Geração Automática de Verbetações para Recuperação de Informações no Domínio Jurídico Brasileiro

Mots-clés en portugais

Aprendizado de máquina
Aprendizado profundo
Geração de texto
Processamento de linguagem natural
Recuperação de informações

Resumé en portugais

A grande quantidade de processos jurídicos em trânsito no Brasil, evidencia a grande lentidão do sistema judiciário brasileiro. Sendo assim, há uma grande necessidade em desenvolver formas de automatizar e melhorar processos existentes. Os recentes avanços em Processamento de Linguagem Natural (PLN), possibilitam a aplicação dos métodos do estado da arte para automatizar tarefas em diferentes domínios. Assim, neste trabalho, abordamos o problema da automatização da escrita de verbetações: sequência de termos-chave presentes em documentos utilizados em tribunais de todo o Brasil. Para tanto, propusemos a utilização de um framework texto-para-texto baseado em Transformers generativos. Avaliamos diferentes modelos generativos (PTT5, mT5, OPT e BLOOM) e comparamos seus desempenhos para a tarefa proposta. O modelo PTT5 foi escolhido como gerador de verbetações, pois alcançou uma pontuação BLEU de 37,54% no conjunto de teste, superando os demais modelos avaliados em até 24,6%. Por fim, para avaliar a influência e a qualidade das verbetações geradas, realizamos quatro experimentos baseados em um caso real de recuperação de informações no domínio jurídico. Empregando métodos tradicionais de recuperação de informações (TF-IDF e BM25); em combinação com as verbetações originais, geradas, ou ambas; observamos ganhos estatisticamente significativos (p-valor < 0,05) em todos os experimentos realizados.

Titre en anglais

Automated Keyphrase Generation for Brazilian Legal Information Retrieval

Mots-clés en anglais

Deep learning
Information retrieval
Machine learning
Natural language processing
Text generation

Resumé en anglais

The large quantity of legal processes in transit in Brazil highlights the slowness of the Brazilian judicial system. Therefore, there is a great need to develop ways to automate and improve existing processes. The recent advancements in Natural Language Processing (NLP) enable the application of state-of-the-art methods to automate tasks in different domains. Thus, in this work, we address the problem of automating the writing of keyphrases: a sequence of key terms present in documents used in courts throughout Brazil. For this, we proposed the use of a text-to-text framework based on generative Transformers. We evaluated several generative models (PTT5, mT5, OPT, and BLOOM) and compared their performances for the proposed task. PTT5 was chosen as the keyphrase generator, as it achieved a BLEU score of 37.54% on the test set, outperforming the other evaluated models by up to 24.6%. Finally, to assess the influence and quality of the generated keyphrases, we performed four experiments based on a real case of information retrieval in the legal domain. By using traditional information retrieval methods (TF-IDF and BM25); in combination with the original, generated keyphrases, or both; we observed statistically significant gains (p-value < 0.05) in all experiments.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

KenzoMirandaSakiyama_ME_revisada.pdf (1.27 Mbytes)

Date de Publication

2023-12-18

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.