• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tese de Doutorado
DOI
10.11606/T.55.2010.tde-14072010-092100
Documento
Autor
Nome completo
Eloize Rossi Marques Seno
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2010
Orientador
Banca examinadora
Nunes, Maria das Graças Volpe (Presidente)
Paraboni, Ivandre
Pardo, Thiago Alexandre Salgueiro
Rino, Lucia Helena Machado
Zavaglia, Claudia
Título em português
Um método para a fusão automática de sentenças similares em português
Palavras-chave em português
Fusão automática de sentenças
Geração de texto a partir de texto
Resumo em português
Nos últimos anos, há um crescente interesse por aplicações do Processamento de Língua Natural (PLN) que processam uma coleção de textos sobre um mesmo assunto e produzem um novo texto de saída, quer seja um sumário ou uma resposta para uma dada pergunta. Para se produzir textos com qualidade, essas aplicações precisam lidar adequadamente com vários fenômenos, tais como a redundância, a contradição e a complementaridade de informações. Nesse contexto, um processo que permita a identificação de informações comuns em um conjunto de sentenças relacionadas, e gere uma nova sentença a partir da fusão de informações das sentenças de entrada, sem redundâncias e sem contradições, é de grande relevância para as aplicações que processam múltiplos textos. A fusão automática de sentenças é um tema de pesquisa relativamente recente na literatura de PLN e para a língua portuguesa, em particular, não se tem conhecimento de trabalhos dessa natureza. Neste trabalho propõe-se um método inédito para a fusão de sentenças similares em português, baseado em uma abordagem simbólica e independente de domínio, e produz-se o Zíper, um sistema de fusão sentencial que implementa o método proposto. O Zíper é o primeiro sistema a contemplar a geração de sentenças que expressam todas as informações das sentenças de entrada, ou seja, que representam a união do conjunto. Além disso, ele permite a geração de sentenças que expressam apenas as informações redundantes do conjunto (consideradas mais importantes), isto é, que representam a interseção das sentenças de entrada. O sistema foi avaliado intrinsecamente e os resultados obtidos mostram que, de modo geral, as sentenças produzidas são bem formadas e preservam a mensagem original do conjunto (isto é, a mensagem toda, na fusão por união e apenas a mensagem principal, na fusão por interseção). Zíper também foi avaliado extrinsecamente no contexto de um sumarizador multidocumento do português. Os resultados alcançados sugerem que o método proposto contribui para melhorar a qualidade dos sumários, reduzindo a redundância de informações, que frequentemente provoca a perda de coesão e de coerência
Título em inglês
A method for automatic fusion of similar sentence in portuguese
Palavras-chave em inglês
Automatic sentence fusion
Text-on-text generation
Resumo em inglês
In recent years, there is increasing interest in applications of Natural Language Processing (NLP) that process a collection of texts on the same subject and generate a new output text, for instance, a summary or an answer to a given question. In order to generate quality texts, these applications need to cope with various phenomena such as information redundancy, contradiction and complementarity. In this context, a process that is able to identify common information in a set of related sentences and generate a new sentence by merging information from the input sentences, without redundancies and contradictions, is of great relevance for applications that process multiple texts. Automatic sentence fusion is a relatively new research topic in NLP literature and for Portuguese, in particular, we are not aware of any such work. This work proposes a new method for fusing similar sentences in Portuguese, based on a symbolic and domainindependent approach, and produces Zíper, a sentence fusion system that implements the proposed method. Zíper is the first such system to generate sentences that express all the information from input sentences, i.e., the union of the input set. Moreover, it allows generating sentences that express only the redundant information of the set (considered more important), i.e., the intersection of the input sentences. The system was evaluated intrinsically and the results show that, in general, the generated sentences are well formed and preserve the original message of the set (i.e. the entire message in the fusion by union, and only the main message in the fusion by intersection). Zíper was also evaluated extrinsically in the context of a Portuguese multi-document summarizer. The results suggest that it can improve the quality of summaries by reducing redundancy, which often causes loss of cohesion and coherence
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Tese_EloizeSeno.pdf (1.16 Mbytes)
Data de Publicação
2010-07-14
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
Centro de Informática de São Carlos
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2021. Todos os direitos reservados.