Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado

Silva, Jefferson Fontinele da

doi:10.11606/D.55.2011.tde-19072011-144521

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.55.2011.tde-19072011-144521

Document

Master's Dissertation

Author

Silva, Jefferson Fontinele da (Catálogo USP)

Full name

Jefferson Fontinele da Silva

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2011-05-05

Published

São Carlos, 2011

Supervisor

Rosa, João Luis Garcia (Catálogo USP)

Committee

Rosa, João Luis Garcia (President)
Paraboni, Ivandre
Rino, Lucia Helena Machado

Title in Portuguese

Resolução de correferência em múltiplos documentos utilizando aprendizado não supervisionado

Keywords in Portuguese

Aprendizado não supervisionado
Correferência
Múltiplos documentos
Processamento de línguas naturais

Abstract in Portuguese

Um dos problemas encontrados em sistemas de Processamento de Línguas Naturais (PLN) é a dificuldade de se identificar que elementos textuais referem-se à mesma entidade. Esse fenômeno, no qual o conjunto de elementos textuais remete a uma mesma entidade, é denominado de correferência. Sistemas de resolução de correferência podem melhorar o desempenho de diversas aplicações do PLN, como: sumarização, extração de informação, sistemas de perguntas e respostas. Recentemente, pesquisas em PLN têm explorado a possibilidade de identificar os elementos correferentes em múltiplos documentos. Neste contexto, este trabalho tem como foco o desenvolvimento de um método aprendizado não supervisionado para resolução de correferência em múltiplos documentos, utilizando como língua-alvo o português. Não se conhece, até o momento, nenhum sistema com essa finalidade para o português. Os resultados dos experimentos feitos com o sistema sugerem que o método desenvolvido é superior a métodos baseados em concordância de cadeias de caracteres

Title in English

Co-reference resolution in multiples documents through unsupervised learning

Keywords in English

Coreference
Multiple documents
Natural language processing
Unsupervised learning

Abstract in English

One of the problems found in Natural Language Processing (NLP) systems is the difficulty of identifying textual elements that refer to the same entity. This phenomenon, in which the set of textual elements refers to a single entity, is called coreference. Coreference resolution systems can improve the performance of various NLP applications, such as automatic summarization, information extraction systems, question answering systems. Recently, research in NLP has explored the possibility of identifying the coreferent elements in multiple documents. In this context, this work focuses on the development of an unsupervised method for coreference resolution in multiple documents, using Portuguese as the target language. Until now, it is not known any system for this purpose for the Portuguese. The results of the experiments with the system suggest that the developed method is superior to methods based on string matching

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

final2.pdf (898.42 Kbytes)

Publishing Date

2011-07-19

Derived works

WARNING: Learn what derived works are clicking here.