• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Master's Dissertation
DOI
https://doi.org/10.11606/D.55.2020.tde-16032020-150627
Document
Author
Full name
Felipe Provezano Coutinho
E-mail
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2019
Supervisor
Committee
Rezende, Solange Oliveira (President)
Almeida, Tiago Agostinho de
Lopes, Alneu de Andrade
Nogueira, Bruno Magalhães
Title in Portuguese
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical
Keywords in Portuguese
Classificação de documentos
Evolução gramatical
Funções de proximidade
Rede de termos
Abstract in Portuguese
Com o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN.
Title in English
Automatic Construction of Proximity Functions for Term Networks Using Grammatical Evolution
Keywords in English
Document classification
Grammatical evolution
Proximity functions
Terms network
Abstract in English
With the increasing volume of textual data the simple task document labeling becomes costly. Machine learning algorithms can learn from historical data and then be able to perform the automatic labeling task on new documents. Generally, supervised algorithms are used for this. In this approach a large number of examples are required for the algorithm to be able to identify patterns and generalize this knowledge by labeling new examples. An alternative is the use of transductive algorithms that only require a few labeled documents to generalize. Usually, transductive algorithms use document networks or a vector space model for document representation. The document network grows as new documents are added and the vector space model suffers from problems such as term independence and high sparsity. A term network is an interesting alternative to previous models because the number of terms tends to stabilize as new documents are added, the representation of the relationship between terms is natural and it is possible to select terms to narrow the network and speed up classification. Transductive Classification through Terms Networks (TCTN) is state-of-the-art in document classification using term networks, however one of its hyperparameters is the proximity function that quantifies the proximity between terms and choosing a function may not be trivial. In this dissertation, an approach for automatic construction of proximity functions for term networks is proposed, implemented and evaluated. The approach called textit Grammatical Evolution for Automatically Design Proximity Functions for Transductive Classification through Term Networks (GE-TCTN) uses a context-free grammar to evolve new proximity functions through the optimization algorithm called Grammatical Evolution. The results produced by GE-TCTN are compared to TCTNs results to verify whether new proximity functions built automatically by GE-TCTN are capable of producing better document classification results than results produced by using traditional proximity functions of the literature. In addition, GE-TCTN is compared to traditional algorithms in the literature and statistically evaluated. GE-TCTN results are competitive with traditional algorithms and GE-TCTN is capable of producing proximity functions that lead to document classification results superior to TCTN in terms of F1-measure.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2020-03-16
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2020. All rights reserved.