Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado

Silva, Jefferson Fontinele da

doi:10.11606/D.55.2011.tde-19072011-144521

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.55.2011.tde-19072011-144521

Documento

Disertación de Maestría

Autor

Silva, Jefferson Fontinele da (Catálogo USP)

Nombre completo

Jefferson Fontinele da Silva

Dirección Electrónica

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2011-05-05

Publicación

São Carlos, 2011

Director

Rosa, João Luis Garcia (Catálogo USP)

Tribunal

Rosa, João Luis Garcia (Presidente)
Paraboni, Ivandre
Rino, Lucia Helena Machado

Título en portugués

Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado

Palabras clave en portugués

Aprendizado não supervisionado
Correferência
Múltiplos documentos
Processamento de línguas naturais

Resumen en portugués

Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres

Título en inglés

Co-reference resolution in multiples documents through unsupervised learning

Palabras clave en inglés

Coreference
Multiple documents
Natural language processing
Unsupervised learning

Resumen en inglés

One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

final2.pdf (898.42 Kbytes)

Fecha de Publicación

2011-07-19

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.