• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Mémoire de Maîtrise
DOI
https://doi.org/10.11606/D.55.2023.tde-04092023-145651
Document
Auteur
Nom complet
Emanuel Huber da Silva
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2023
Directeur
Jury
Pardo, Thiago Alexandre Salgueiro (Président)
Aluisio, Sandra Maria
Finger, Marcelo
Vale, Oto Araujo
Titre en portugais
Etiquetagem morfossintática multigênero para o português do Brasil segundo o modelo Universal Dependencies
Mots-clés en portugais
Etiquetagem morfossintática
Etiquetagem multigêner
Universal Dependencies
Resumé en portugais
A etiquetagem morfossintática é um dos primeiros níveis de estruturação linguística. Encontrandose entre a morfologia e a sintaxe, busca-se identificar as classes gramaticais de cada palavra ou token. A tarefa é necessária para desambiguação morfossintática e, consequentemente, para a criação de ferramentas e métodos de Processamento de Língua Natural mais robustos. Nessa linha, existe uma variedade de trabalhos para o português do Brasil utilizando córpus de gênero jornalístico com diferentes conjuntos de etiquetas. O formalismo Universal Dependencies (UD) é a teoria linguística que tem sido mais adotada por córpus na área, o que permite a padronização entre diferentes línguas e gêneros textuais, inclusive, do conjunto de etiquetas morfossintáticas. Apesar de existirem trabalhos de etiquetadores para o português do Brasil baseados em diversos formalismos, existem poucos trabalhos que se baseiam na UD. Além disso, há escassez de trabalhos que abordam córpus com variedade de gêneros textuais. Cada gênero textual possui diferentes características linguísticas e, consequentemente, apresenta desafios para os métodos de etiquetagem. Nesse projeto, foi realizada a investigação de métodos de etiquetagem morfossintática para o português do Brasil adotando o formalismo UD. Destaca-se a análise no contexto multigênero com textos jornalísticos, acadêmicos e Conteúdo Gerado por Usuário (CGU).
Titre en anglais
Multigenre part-of-speech tagging for Brazilian Portuguese according to the Universal Dependencies model
Mots-clés en anglais
Multigenre tagging
Part-of-Speech tagging
Universal dependencies
Resumé en anglais
Part-of-Speech tagging is one of the first levels of linguistic structuring. Lying between morphology and syntax, and seeks to identify the grammatical classes of each word or token. The task is necessary for morphosyntactic disambiguation and, consequently, for the creation of more robust Natural Language Processing tools and methods. In this line, there is a variety of work for Brazilian Portuguese using journalistic genre corpus with different sets of tags. The Universal Dependencies (UD) formalism is the linguistic theory that has been most adopted by corpora in the area, which allows standardization across different languages and textual genres, including the set of morphosyntactic tags. Although there are works on taggers for Brazilian Portuguese based on several formalisms, there are few works based on UD. Furthermore, there is a dearth of works that address corpus with a variety of textual genres. Each text genre has different linguistic characteristics and, consequently, presents challenges for tagging methods. In this project, we investigated morphosyntactic tagging methods for Brazilian Portuguese adopting the UD formalism. Notably, the analysis in the multigenre context with journalistic, academic and User-Generated Content (UGC) texts.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2023-09-04
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.