• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.3.2023.tde-01032024-090345
Document
Auteur
Nom complet
André Seidel Oliveira
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2023
Directeur
Jury
Costa, Anna Helena Reali (Président)
Pardo, Thiago Alexandre Salgueiro
Veloso, Bruno Miguel Delindro
Titre en portugais
Sumarizando múltiplos websites para a geração do Wikipédia PT-BR automaticamente.
Mots-clés en portugais
Inteligência artificial
Processamento de linguagem natural
Redes neurais
Resumé en portugais
A Wikipédia é uma importante fonte gratuita de conhecimento inteligível. Apesar disso, o portal em português do Brasil ainda carece de descrições para muitos assuntos. Em um esforço para expandir a Wikipédia brasileira, apresentamos PLSum, Portuguese Long Summarizer, um arcabouço para gerar resumos abstrativos no estilo da Wikipédia a partir de vários sítios (sites) descritivos. O arcabouço possui uma etapa extrativa seguida por uma abstrativa. Na etapa extrativa, extraem-se trechos de documentos sobre o tema de interesse e, na etapa abstrativa, ´e realizado um ajuste fino, buscando reescrever os trechos em um resumo coeso, correto e significativo. Em particular, para a etapa abstrativa, ajustamos e comparamos duas variações recentes da rede neural do tipo Transformer, a PTT5 e o Longformer. Já na etapa extrativa, inovamos ao propor um método baseado em agrupamento de representações semânticas vetoriais para seleção de sentenças relevantes. Para ajustar e avaliar os modelos, criamos uma base de dados para sumarização multi-documentos com milhares de exemplos, vinculando sítios de referência às páginas do Wikipédia. Nossos resultados mostram que é possível gerar resumos abstrativos significativos a partir do conteúdo da web em português do Brasil. Além disso, mostramos que o PLSum tem sucesso na aplicação da transferência de estilo de escrita, o que não é possível com as técnicas totalmente extrativas, predominantes na literatura. Por fim, nós também concluímos que o método de agrupamento de representações semânticas vetoriais possibilitou a extração de sentenças mais diversas na etapa extrativa.
Titre en anglais
Summarizing multiple websites for automatic PT-BR wikipedia generation.
Mots-clés en anglais
Abstractive summarization
Machine learning
Multi-document summarization
Natural language processing
Resumé en anglais
Wikipedia is an essential free source of intelligible knowledge. Despite that, the Brazilian Portuguese portal still lacks descriptions for many subjects. To expand the Brazilian Wikipedia, we present PLSum, Portuguese Long Summarizer, a framework for generating wiki-like abstractive summaries from multiple descriptive websites. The framework has an extractive stage followed by an abstractive one. In the extractive stage, parts from documents are extracted on the topic of interest. Then in the abstractive step, fine-tuning is performed, seeking to rewrite the excerpts in a cohesive, correct, and meaningful summary. In particular, we fine-tune and compare two recent variations of the Transformer neural network for the abstractive stage, PTT5 and Longformer. In the extractive stage, we propose a new method based on clustering dense semantic representations to select the most relevant sentences. To fine-tune and evaluate the model, we created a dataset with thousands of examples, linking reference websites to Wikipedia. Our final results show that it is possible to generate meaningful abstractive summaries from Brazilian Portuguese web content. PLSum successfully applies style transfer, which is not possible with fully extractive techniques that are predominant in Brazilian literature. Finally, we also concluded that the use of dense semantic representations for the extractive stage enabled the selection of diverse sentences, making a non repetitive extractive summary.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2024-03-05
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.