Identificação automática de relações multidocumento

Maziero, Erick Galani

doi:10.11606/D.55.2012.tde-29032012-111155

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.55.2012.tde-29032012-111155

Documento

Dissertação de Mestrado

Autor

Maziero, Erick Galani (Catálogo USP)

Nome completo

Erick Galani Maziero

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2012-01-16

Imprenta

São Carlos, 2012

Orientador

Pardo, Thiago Alexandre Salgueiro (Catálogo USP)

Banca examinadora

Pardo, Thiago Alexandre Salgueiro (Presidente)
Carvalho, André Carlos Ponce de Leon Ferreira de
Felippo, Ariani Di

Título em português

Identificação automática de relações multidocumento

Palavras-chave em português

Análise multidocumento
Aprendizado automático
Relações multidocumento

Resumo em português

O tratamento multidocumento mostra-se indispensável no cenário atual das mídias eletrônicas, em que são produzidos diversos documentos sobre um mesmo tópico, principalmente quando se considera a explosão de informação permitida pela web. Tanto leitores quanto aplicações computacionais se beneficiam da análise discursiva multidocumento por meio da qual são explicitadas relações entre as porções dos documentos, por exemplo, relações de equivalência, contradição ou de contextualização de alguma informação. A fim de realizar o tratamento automático multidocumento, adota-se neste trabalho a teoria linguístico-computacional CST (Cross-document Structure Theory, Radev, 2000). Esse tipo de conhecimento multidocumento permite que (i) se tratem mais apropriadamente fenômenos como redundância, complementariedade e contradição de informações e, consequentemente, (ii) produzam-se sistemas melhores de processamento textual, como buscadores web mais inteligentes e sumarizadores automáticos. Neste trabalho é apresentada uma metodologia de identificação dessas relações explorando-se técnicas de aprendizado automático do paradigma tradicional e hierárquico. Para relações que não são passíveis de identificação por aprendizado automático foram desenvolvidas regras para sua identificação. Por fim, um parser é gerado contendo classificadores e regras

Título em inglês

Automatic identification of multidocument relations

Palavras-chave em inglês

Cross-document structure theory
Cross-document strucure theory
Machine learning
Multidocument analysis
Multidocument parsing
Multidocument relationship
Rules

Resumo em inglês

The multi-document treatment is essential in the current scenario of electronic media, in which many documents are produced about a same topic, mainly when considering the explosion of information allowed by the web. Both readers and computational applications are benefited by the discursive multi-document analysis, through which the relations (for example, equivalence, contradiction or background relations) among the portions of text are showed. In order to achieve the automatic multi-document treatment, the CST (Cross-document Structure Theory, Radev, 2000) is adopted in this work. This kind of knowledge allow (i) the appropriated treatment of phenomena like redundancy, complementarity and contradiction of information and, consequently, (ii) the production of better systems of text processing, as more intelligent web searchers and automatic summarizers. In this work, a methodology to identify these relations is presented exploring techniques of machine learning of the traditional and hierarchical paradigm. For relations with low frequency in the corpus, handcrafted rules were developed. Finally, a parser is generated containing classifiers and rules

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

Erick.pdf (3.68 Mbytes)

Data de Publicação

2012-04-10

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.