• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
10.11606/D.55.2018.tde-11012018-165357
Document
Author
Full name
Verônica Agostini
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2014
Supervisor
Committee
Pardo, Thiago Alexandre Salgueiro (President)
Felippo, Ariani Di
Specia, Lucia
Title in Portuguese
Alinhamento automático de textos e sumários multidocumento
Keywords in Portuguese
Não disponível
Abstract in Portuguese
Com o excesso de informação disponível online, a Sumarização Automática tornouse uma área de bastante interesse na grande área da Inteligência Artificial. Alguns autores tentaram caracterizar o processo de sumarização para compreender melhor como sumarizadores o realizam. O alinhamento de um sumário e seus textos fonte pode ser encarado como uma caracterização desse processo. Com relação à sumarização automática, a técnica de alinhamento consiste em obter relações entre segmentos de um ou vários textos e seu sumário e, da forma que o conteúdo de um segmento esteja contido no outro. Uma vez obtidas essas relações, tornase possível (i) aprender como sumarizadores profissionais realizam a sumarização, (ii) explicitar regras e modelos para a sumarização, e (iii) criar métodos automatizados utilizando as regras e modelos explicitados, o que traz uma contribuição à Sumarização Automática. Neste trabalho, foram propostas três abordagens dentro das abordagens superficiais e profundas do Processamento de Língua Natural para realizar os alinhamentos de forma automática. A primeira utiliza três métodos superficiais, sendo eles Word overlap, tamanho relativo e posição relativa. A segunda caracterizase em uma técnica de alinhamento com mais conhecimento linguístico, pois nela foi utilizada uma teoria discursiva, a CST (CrossDocument Structure Theory). A terceira utiliza Aprendizado de Máquina, caracterizando uma abordagem híbrida dada a característica de seus atributos superficiais e profundos, relativo à primeira e à segunda abordagem. Uma avaliação comparativa entre elas, e também entre um trabalho da literatura, foi realizada. Quando os dados do aprendizado de máquina eram balanceados, foi atingido o valor de 97,2% de medidaF, maior valor encontrado. O método superficial Word overlap também obteve um bom resultado, sendo ele 66,2% de medidaF.
Title in English
Not available
Keywords in English
Not available
Abstract in English
With the huge amount of online information, the Automatic Summarization has become an area of great interest in the Artificial Intelligence area. Some authors have tried to characterize the process of summarization to aim a better understanding of how the summarizers perform the summarization. The alignment of an abstract and its source texts can be seen as a characterization of this process. Regarding the automatic summarization, the alignment technique consists in obtaining relations between segments of one, or more text, and its abstract, in a way that the segment content is contained in the other segment. Once obtained these relationships, it becomes possible to (i) learn how professional summarizers perform the summarization, (ii) explicit rules and models for summarization, and (iii) create automated methods using the rules and the models, which brings a contribution to the Automatic Summarization area. In this dissertation, three approaches within the Natural Language Processing superficial and deep approaches have been proposed to carry the alignments automatically. The first uses three superficial methods, namely Word overlap, relative size and relative position. The second is an alignment technique with more linguistic knowledge, because was used a discursive theory, the CST (Crossdocument Structure Theory). The third uses Machine Learning, featuring a hybrid approach given the characteristics of its deep and superficial attributes, relative to the first and second approaches. A comparative evaluation among them was performed. When the machine learning data were balanced, the value achieved was 97.2% of Fmeasure, the highest value found. The superficial method Word overlap also achieved a good result, which is 66.2% of Fmeasure.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
VeronicaAgostini.pdf (1.47 Mbytes)
Publishing Date
2018-01-11
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2019. All rights reserved.