• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2020.tde-29072020-120805
Document
Author
Full name
Rafael Torres Anchiêta
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2020
Supervisor
Committee
Pardo, Thiago Alexandre Salgueiro (President)
Aluisio, Sandra Maria
Moura, Raimundo Santos
Oliveira, Hugo Ricardo Gonçalo
Title in English
Abstract Meaning Representation Parsing for the Brazilian Portuguese Language
Keywords in English
Abstract meaning representation
Semantic annotation
Semantic parsnig
Abstract in English
Computational semantics is the area in charge of studying possible meaning representations, that is, computationally viable semantic formalisms to represent human expressions. Such formalisms play an important role in making sense of natural language, capturing the meaning of linguistic statements. Moreover, these formalisms are the main component to develop semantic parsers, which are responsible to map sentences of a natural language into a computationally treatable meaning representation. In order to represent and understand semantic features of a natural language and, with that, develop computational tools that produce results close to those of humans, several semantic formalisms were proposed, as Universal Networking Language (UNL), Universal Conceptual Cognitive Annotation (UCCA), Abstract Meaning Representation (AMR), among others. In special, AMR is a rooted directed graph-based semantic formalism with labeled nodes and edges. The nodes are concepts (that may be the words of a sentence) and the edges are semantic relations among them, where the nodes do not have an explicit alignment with the tokens of the sentences. Furthermore, AMR encompasses some linguistic features, as named entities, coreference, semantic roles, word sense disambiguation, and others. In this work, we focused on AMR representation for Portuguese, since it has a simpler structure to produce than other semantic formalisms. In this way, we annotated the Little Prince book, which is the first annotated corpus with AMR information for Portuguese and developed the first AMR parser for Portuguese. Moreover, we adapted some AMR parsing methods from English to Portuguese. More than that, we developed a new alignment strategy to align the word tokens of the sentence and the nodes of the AMR graph that improves the results of the adapted AMR parsers and a new metric to evaluate AMR graphs, which is more robust, faster, and fairer than the traditional AMR metric. Finally, we used these resources and methods in a paraphrase detection task, joining both explicit and implicit semantic features to classify if two sentences are paraphrase each other.
Title in Portuguese
Analisadores para Representação Abstrata de Significado para o Português Brasileiro
Keywords in Portuguese
Analisador semântico
Anotação semântica
Representação abstrata de significado
Abstract in Portuguese
Semântica computacional é a área encarregada de estudar possíveis representações semânticas, ou seja, formalismos semânticos que são computacionalmente viáveis para representar expressões da língua humana. Esses formalismos desempenham um papel importante para o entendimento de uma língua natural, capturando o significado de expressões linguísticas. Além disso, eles são o principal ingrediente para desenvolver analisadores semânticos, que são responsáveis por mapear sentenças de uma língua natural em uma representação semântica computacionalmente tratável. Com o objetivo de representar e entender características semânticas de uma língua natural e, com isso, desenvolver ferramentas computacionais que produzam resultados mais próximos aos dos humanos, diversos formalismos semânticos foram propostos, como: Universal Networking Language (UNL), Universal Conceptual Cognitive Annotation, (UCCA), Abstract Meaning Representation (AMR), entre outros. Em especial, Abstract Meaning Representation (AMR) é um formalismo semântico baseado em grafo direcionado que possui única raiz com nós e arestas rotulados. Os nós representam conceitos (que podem ser as palavras de uma sentença), as arestas representam relações semânticas entre os conceitos e os nós não possuem alinhamento explícito com as palavras da sentença. AMR compreende algumas caractetísticas semânticas como: entidades nomeadas, correferência, papéis semânticos, desambiguação lexical, entre outras. Neste trabalho, focou-se na representação AMR para a língua portuguesa, pois ela possui uma estrutura mais fácil de produzir do que outras representações semânticas. Dessa forma, anotou-se o livro do Pequeno Príncipe, que é primeiro corpus anotado nesse formalismo para a língua portuguesa e desenvolveu-se o primeiro analisador semântico para essa representação. Além disso, adaptou-se alguns métodos de análise semântica da língua inglesa para a língua portuguesa. Mais do que isso, desenvolveu-se um novo método de alinhamento entre as palavras da sentença e os nós do grafo que melhora os resultados dos analisadores semânticos adaptados e um novo método de avaliação entre grafos AMRs que é mais robusto, rápido e justo do que a métrica tradicional de avaliação. Por fim, utilizou-se esses métodos em uma tarefa de detecção de paráfrase, combinando tanto características semânticas implícitas quanto explícitas para classificar se uma sentença é paráfrase de outra.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2020-07-29
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.