• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
https://doi.org/10.11606/T.55.2023.tde-19042023-103916
Documento
Autor
Nome completo
Marco Antonio Sobrevilla Cabezudo
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2023
Orientador
Banca examinadora
Pardo, Thiago Alexandre Salgueiro (Presidente)
Caseli, Helena de Medeiros
Ferreira, Thiago Castro
Nunes, Maria das Graças Volpe
Título em português
Geração de linguagem natural por meio de representações semânticas abstratas para o português do Brasil
Palavras-chave em português
Entorno de pocos recursos
Geração de linguagem natural
Português brasileiro.
Representação semântica abstrata
Resumo em português
Abstract Meaning Representation é um formalismo semântico que codifica o significado de uma sentença como um grafo. Essa representação inclui várias informações semânticas, tais como os papéis semânticos, correferência, entidades nomeadas, entre outras. AMR tornou-se um tópico de pesquisa relevante nas áreas de representação semântica, análise semântica e geração de linguagem natural. Seu sucesso se baseia em sua tentativa de abstrair as idiossincrasias sintáticas e seu amplo uso de recursos linguísticos maduros, como o PropBank. A tarefa de geração de texto a partir de AMR (AMR-para-Texto) visa produzir um texto que transmita o significado codificado por um grafo AMR. Para o inglês, isso tem sido amplamente estudado, e várias abordagens como a tradução automática estatística, transdutores grafo/árvore a texto e, recentemente, modelos neurais têm sido explorados. Além disso, o corpus usado contém milhares de instâncias, possibilitando explorar diversos métodos e atingir altos desempenhos. Por outro lado, obter corpora de alta qualidade limita a pesquisa em outras línguas (pois geralmente envolve uma tarefa de anotação difícil e cara), resultando em corpora menores e na incapacidade de replicação de métodos e/ou obtenção de resultados semelhantes aos obtidos no Inglês. Para o Português Brasileiro, existe um corpus AMR contendo frases anotadas do livro O Pequeno Príncipe e vários analisadores AMR desenvolvidos. Nesse contexto, esta tese teve como objetivo investigar métodos de geração AMR-para-Texto para o Português Brasileiro, contribuindo para o desenvolvimento dessa linha de pesquisa. Dessa forma, primeiro adaptamos as diretrizes de AMR para o Português Brasileiro, construímos um novo corpus de AMR multigênero e fizemos uma análise de casos difíceis nos gênero de notícias jornalísticas e comentários opinativos. Além disso, adaptamos alguns métodos de geração AMR-para-Texto e os testamos em nosso corpus. Posteriormente, exploramos diversas estratégias para superar o tamanho limitado do corpus. Em particular, exploramos estratégias de língua cruzada usando o corpus AMR em Inglês e estratégias aprimoradas que visavam usar recursos (como modelos pré-treinados) e tarefas (como geração de paráfrases) para melhorar o desempenho dos mesmos. Entre os resultados, avaliamos as potencialidades e limitações de todas as estratégias, com especial enfoque para aquelas úteis para línguas com poucos recursos, sendo que as abordagens de língua cruzada produziram os melhores resultados. As contribuições desta tese também incluem os vários recursos AMR disponibilizados.
Título em inglês
Natural language generation from abstract meaning representation for brazilian portuguese
Palavras-chave em inglês
Abstract meaning representation
Brazilian portuguese.
Low-resource setting
Natural language generation
Resumo em inglês
Abstract Meaning Representation (AMR) is a semantic formalism that encodes the meaning of a sentence as a graph. This representation includes several semantic information, such as semantic roles, coreference and named entities, among others. AMR has become a relevant research topic in meaning representation, semantic parsing, and natural language generation (NLG). Its success is grounded in its attempt to abstract away from syntactic idiosyncrasies and its wide use of mature linguistic resources such as PropBank. The AMR-to-Text generation task aims to produce a text that conveys the meaning encoded by an input AMR graph. For English, this has been widely studied, and several approaches like Statistical Machine Translation, tree and graph to string transducers, and, recently, neural models have been explored. Besides, the corpus used contains thousands of instances, enabling to explore diverse methods and achieve high performance. Conversely, getting high-quality corpora limits the research in other languages (as it usually comprises a difficult and expensive annotation task), resulting in smaller corpora and the inability for state-of-the-art methods to be replicated and/or achieve similar performance to the English ones. For Brazilian Portuguese, there is an AMR corpus containing annotated sentences of the The Little Prince book and various AMR parsers developed. In this context, this thesis aimed to investigate diverse AMR-to-Text generation methods, contributing to the development of this research area. In this way, we first adapted the AMR guidelines to Brazilian Portuguese, built a new multi-genre AMR corpus, and made an analysis of hard cases in the news and opinative genres. Moreover, we adapted some AMR-to-Text generation methods and tested them on our corpus. Subsequently, we explored diverse strategies to overcome the limited corpus size. In particular, we explored cross-lingual strategies using the English AMR corpus and advanced strategies that aimed to use resources (such as pre-trained models) and tasks (such as paraphrase generation) to improve the performance. Among the results, we evaluated the strengths and limitations of all strategies, with a special focus on those useful for languages with few resources, being the cross-lingual approaches the ones that produced the best results. The contributions of this thesis also include the various AMR resources made available.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2023-05-11
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.