• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2020.tde-16032020-150627
Documento
Autor
Nombre completo
Felipe Provezano Coutinho
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2019
Director
Tribunal
Rezende, Solange Oliveira (Presidente)
Almeida, Tiago Agostinho de
Lopes, Alneu de Andrade
Nogueira, Bruno Magalhães
Título en portugués
Construção Automática de Funções de Proximidade para Redes de Termos usando Evolução Gramatical
Palabras clave en portugués
Classificação de documentos
Evolução gramatical
Funções de proximidade
Rede de termos
Resumen en portugués
Com o crescente volume de dados textuais, a simples tarefa de rotulação de documentos tornase onerosa. Algoritmos de aprendizado de máquina podem aprender com dados históricos e então serem capazes de realizar a tarefa de rotulação automática em novos documentos. Geralmente, os algoritmos supervisionados são utilizados. Nessa abordagem uma grande quantidade de exemplos é necessária para que o algoritmo seja capaz de identificar padrões e generalizar esse conhecimento com a rotulação de novos exemplos. Uma alternativa é o uso de algoritmos transdutivos, que necessitam apenas de poucos documentos rotulados para realizar a generalização. Geralmente, algoritmos transdutivos utilizam redes de documentos ou um modelo espaço vetorial para representação de documentos. A rede de documentos cresce a medida que novos documentos são adicionados, enquanto o modelo espaço vetorial sofre de problemas como a independência entre termos e alta esparsidade. Uma rede de termos é uma alternativa interessante aos modelos anteriores porque o número de termos tende a se estabilizar a medida que novos documentos são adicionados, a representação da relação entre termos é natural e é possível realizar a seleção de termos diminuir a rede e acelerar a classificação. O Transductive Classification through Terms Networks (TCTN) é estado-da-arte na classificação de documentos utilizando rede de termos, contudo um de seus hiperparâmetros é a função de proximidade que quantifica a proximidade entre termos e a escolha por uma função pode não ser trivial. Nessa dissertação, uma abordagem para construção automática de funções de proximidade para redes de termos é proposta, implementada e avaliada. A abordagem denominada Grammatical Evolution for Automatically Design Interestingness Measures for Transductive Classification through Term Networks (GE-TCTN) utiliza uma gramática livre de contexto para evolução de novas funções de proximidade através do algoritmo de otimização denominado Evolução Gramatical. Os resultados do GE-TCTN são comparados com os resultados do TCTN com objetivo de verificar se novas funções de proximidade construídas automaticamente pelo GETCTN são capazes de produzir resultados de classificação de documentos melhores do que os resultados produzidos utilizando-se funções de proximidade tradicionais da literatura em termos da medida de avaliação de classificação F1-ponderada. Além disso, o GE-TCTN é comparado aos algoritmos aprendizado transdutivo tradicionais e avaliados estatisticamente. Os resultados do GE-TCTN são competitivos com os algoritmos tradicionais e o GE-TCTN é capaz de produzir funções de proximidade que levam a resultados de classificação de documentos superiores ao TCTN.
Título en inglés
Automatic Construction of Proximity Functions for Term Networks Using Grammatical Evolution
Palabras clave en inglés
Document classification
Grammatical evolution
Proximity functions
Terms network
Resumen en inglés
With the increasing volume of textual data the simple task document labeling becomes costly. Machine learning algorithms can learn from historical data and then be able to perform the automatic labeling task on new documents. Generally, supervised algorithms are used for this. In this approach a large number of examples are required for the algorithm to be able to identify patterns and generalize this knowledge by labeling new examples. An alternative is the use of transductive algorithms that only require a few labeled documents to generalize. Usually, transductive algorithms use document networks or a vector space model for document representation. The document network grows as new documents are added and the vector space model suffers from problems such as term independence and high sparsity. A term network is an interesting alternative to previous models because the number of terms tends to stabilize as new documents are added, the representation of the relationship between terms is natural and it is possible to select terms to narrow the network and speed up classification. Transductive Classification through Terms Networks (TCTN) is state-of-the-art in document classification using term networks, however one of its hyperparameters is the proximity function that quantifies the proximity between terms and choosing a function may not be trivial. In this dissertation, an approach for automatic construction of proximity functions for term networks is proposed, implemented and evaluated. The approach called textit Grammatical Evolution for Automatically Design Proximity Functions for Transductive Classification through Term Networks (GE-TCTN) uses a context-free grammar to evolve new proximity functions through the optimization algorithm called Grammatical Evolution. The results produced by GE-TCTN are compared to TCTNs results to verify whether new proximity functions built automatically by GE-TCTN are capable of producing better document classification results than results produced by using traditional proximity functions of the literature. In addition, GE-TCTN is compared to traditional algorithms in the literature and statistically evaluated. GE-TCTN results are competitive with traditional algorithms and GE-TCTN is capable of producing proximity functions that lead to document classification results superior to TCTN in terms of F1-measure.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2020-03-16
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2020. Todos los derechos reservados.