• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
10.11606/T.55.2010.tde-14072010-092100
Document
Auteur
Nom complet
Eloize Rossi Marques Seno
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Carlos, 2010
Directeur
Jury
Nunes, Maria das Graças Volpe (Président)
Paraboni, Ivandre
Pardo, Thiago Alexandre Salgueiro
Rino, Lucia Helena Machado
Zavaglia, Claudia
Titre en portugais
Um método para a fusão automática de sentenças similares em português
Mots-clés en portugais
Fusão automática de sentenças
Geração de texto a partir de texto
Resumé en portugais
Nos últimos anos, há um crescente interesse por aplicações do Processamento de Língua Natural (PLN) que processam uma coleção de textos sobre um mesmo assunto e produzem um novo texto de saída, quer seja um sumário ou uma resposta para uma dada pergunta. Para se produzir textos com qualidade, essas aplicações precisam lidar adequadamente com vários fenômenos, tais como a redundância, a contradição e a complementaridade de informações. Nesse contexto, um processo que permita a identificação de informações comuns em um conjunto de sentenças relacionadas, e gere uma nova sentença a partir da fusão de informações das sentenças de entrada, sem redundâncias e sem contradições, é de grande relevância para as aplicações que processam múltiplos textos. A fusão automática de sentenças é um tema de pesquisa relativamente recente na literatura de PLN e para a língua portuguesa, em particular, não se tem conhecimento de trabalhos dessa natureza. Neste trabalho propõe-se um método inédito para a fusão de sentenças similares em português, baseado em uma abordagem simbólica e independente de domínio, e produz-se o Zíper, um sistema de fusão sentencial que implementa o método proposto. O Zíper é o primeiro sistema a contemplar a geração de sentenças que expressam todas as informações das sentenças de entrada, ou seja, que representam a união do conjunto. Além disso, ele permite a geração de sentenças que expressam apenas as informações redundantes do conjunto (consideradas mais importantes), isto é, que representam a interseção das sentenças de entrada. O sistema foi avaliado intrinsecamente e os resultados obtidos mostram que, de modo geral, as sentenças produzidas são bem formadas e preservam a mensagem original do conjunto (isto é, a mensagem toda, na fusão por união e apenas a mensagem principal, na fusão por interseção). Zíper também foi avaliado extrinsecamente no contexto de um sumarizador multidocumento do português. Os resultados alcançados sugerem que o método proposto contribui para melhorar a qualidade dos sumários, reduzindo a redundância de informações, que frequentemente provoca a perda de coesão e de coerência
Titre en anglais
A method for automatic fusion of similar sentence in portuguese
Mots-clés en anglais
Automatic sentence fusion
Text-on-text generation
Resumé en anglais
In recent years, there is increasing interest in applications of Natural Language Processing (NLP) that process a collection of texts on the same subject and generate a new output text, for instance, a summary or an answer to a given question. In order to generate quality texts, these applications need to cope with various phenomena such as information redundancy, contradiction and complementarity. In this context, a process that is able to identify common information in a set of related sentences and generate a new sentence by merging information from the input sentences, without redundancies and contradictions, is of great relevance for applications that process multiple texts. Automatic sentence fusion is a relatively new research topic in NLP literature and for Portuguese, in particular, we are not aware of any such work. This work proposes a new method for fusing similar sentences in Portuguese, based on a symbolic and domainindependent approach, and produces Zíper, a sentence fusion system that implements the proposed method. Zíper is the first such system to generate sentences that express all the information from input sentences, i.e., the union of the input set. Moreover, it allows generating sentences that express only the redundant information of the set (considered more important), i.e., the intersection of the input sentences. The system was evaluated intrinsically and the results show that, in general, the generated sentences are well formed and preserve the original message of the set (i.e. the entire message in the fusion by union, and only the main message in the fusion by intersection). Zíper was also evaluated extrinsically in the context of a Portuguese multi-document summarizer. The results suggest that it can improve the quality of summaries by reducing redundancy, which often causes loss of cohesion and coherence
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Tese_EloizeSeno.pdf (1.16 Mbytes)
Date de Publication
2010-07-14
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
Centro de Informática de São Carlos
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2022. Tous droits réservés.