A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB

Muniz, Marcelo Caetano Martins

doi:10.11606/D.55.2020.tde-19022020-151305

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.55.2020.tde-19022020-151305

Documento

Disertación de Maestría

Autor

Muniz, Marcelo Caetano Martins (Catálogo USP)

Nombre completo

Marcelo Caetano Martins Muniz

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2004-03-26

Publicación

São Carlos, 2004

Director

Nunes, Maria das Graças Volpe (Catálogo USP)

Tribunal

Nunes, Maria das Graças Volpe (Presidente)
Oliveira Junior, Osvaldo Novais de
Vale, Oto Araujo

Título en portugués

A construção de recursos lingüístico-computacionais para o português do Brasil: o projeto Unitex-PB

Palabras clave en portugués

Não disponível

Resumen en portugués

A escassez de recursos linguístico-computacionais é um dos maiores entraves para o avanço das pesquisas, e consequente desenvolvimento de sistemas, na área de Processamento de Língua Natural (PLN) no Brasil. Este trabalho documenta a construção de uma série recursos lingúístico-computacionais para português brasileiro seguindo os formalismos utilizados pela ferramenta de processamento de corpus Unitex. Foram construídos léxicos computacionais, regras de resolução de ambiguidades e bibliotecas para acesso a léxicos compactados, assim como algumas ferramentas para validar esses recursos. Os desafios encontrados durante todo o processo são discutidos nessa dissertação.

Título en inglés

Not available

Palabras clave en inglés

Not available

Resumen en inglés

The lack of computational linguistic resources represents one of the major challenges to the development and research activities related to Natural Language Processing. This work documents the project and development of various computational linguistic resources that support the Brazilian Portuguese language according to the formal methodology used by the corpus processing system called Unitex. The delivered resources include computational lexicons, rules to solve ambiguity, libraries to access compressed lexicons, and additional tools to validate those resources. Some aspects about the main challenges encountered during the course of this project are also addressed.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

MarceloCaetanoMartinsMuniz_ME.pdf (1.97 Mbytes)

Fecha de Publicación

2020-02-19

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.