Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies

Souza, Aleksander Tomaz de

doi:10.11606/D.59.2023.tde-27072023-075811

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.59.2023.tde-27072023-075811

Documento

Dissertação de Mestrado

Autor

Souza, Aleksander Tomaz de (Catálogo USP)

Nome completo

Aleksander Tomaz de Souza

E-mail

Unidade da USP

Faculdade de Filosofia, Ciências e Letras de Ribeirão Preto

Área do Conhecimento

Computação Aplicada

Data de Defesa

2023-06-02

Imprenta

Ribeirão Preto, 2023

Orientador

Ruiz, Evandro Eduardo Seron (Catálogo USP)

Banca examinadora

Ruiz, Evandro Eduardo Seron (Presidente)
Guilherme, Ivan Rizzo
Pinheiro, Vládia Célia Monteiro

Título em português

Text chunking: um método de shallow parsing para identificação de sintagmas nominais lexicais de textos em português do Brasil segundo o formalismo Universal Dependencies

Palavras-chave em português

Análise sintática parcial
Sintagmas nominais lexicais
Universal Dependencies

Resumo em português

A análise sintática superficial, também conhecida pelo termo inglês 'shallow parsing', é um método computacional que identifica partes constituintes de uma frase (e.g.: verbos, substantivos e adjetivos) e as relaciona com estruturas gramaticais hierarquicamente superiores, os sintagmas (e.g.: nominais, verbais, preposicionais, entre outros). Este projeto aborda a identificação de um tipo específico de sintagma nominal definido como sintagma nominal lexical (SNL), em textos escritos em português do Brasil, e anotados segundo o formalismo Universal Dependencies (UD). Os SNL, devido a sua natureza discriminatória, assumem tipicamente funções temáticas ou semânticas e compõem um conjunto reservado de segmentos que chamamos de descritores textuais. Os SNL são utilizados em várias tarefas de processamento de língua natural, tais como: extração e recuperação de informações, reconhecimento de entidades nomeadas, categorização de textos, análise de sentimentos, extração de fatos, extração de relacionamentos e sumarização de textos. Diferentemente da gramática de estruturas frasais, ou seja, a gramática de constituintes, a UD estabelece uma sintaxe de dependência entre palavras que pretende representar qualquer língua humana. A UD fundamenta-se na identificação, descrição, atribuição das relações de dependência existentes nos elementos de uma sentença, ou seja, seus termos e palavras. Neste projeto, recorremos a extração de SNL sobre frases anotadas em UD de forma abstrata e inferencial utilizando algoritmos de Aprendizado de Máquina.

Título em inglês

Text chunking: a shallow parsing method for identification of lexical noun phrases of texts in Brazilian Portuguese according to the formalism Universal Dependencies

Palavras-chave em inglês

Lexical noun phrase
Shallow parsing
Universal Dependencies

Resumo em inglês

The superficial syntactic analysis, also known by the English term 'shallow parsing', is a computational method that identifies constituent parts of a sentence (e.g., verbs, nouns, and adjectives) and relates them with hierarchically superior grammatical structures, the phrases (nominal, verbal, prepositions, etc.). This project addresses the identification of a specific type of noun phrase defined as a lexical noun phrase (SNL) in texts written in Brazilian Portuguese and annotated according to the Universal Dependencies (UD) formalism. The SNL, due to their discriminatory nature, typically assume thematic or semantic functions and compose a reserved set of segments that we call textual descriptors. SNL are used in various natural language processing tasks, such as information extraction and retrieval, named entity recognition, text categorization, sentiment analysis, fact extraction, relationship extraction, and summarization of texts. Unlike the grammar of sentence structures, that is, the grammar of constituents, the UD establishes a syntax of dependency between words that intends to represent any human language. The UD is based on the identification, description, and attribution of the dependency relationships existing in the elements of a sentence, that is, its terms and words. In this work, we extracted SNL from sentences annotated in UD in an abstract and inferential way using Machine Learning algorithms.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

DISSERTACAO_ALEKSANDER_TOMAZ_DE_SOUZA_corrigida.pdf (1,008.19 Kbytes)

Data de Publicação

2023-08-22

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.