• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Doctoral Thesis
DOI
https://doi.org/10.11606/T.55.2023.tde-11042023-090221
Document
Author
Full name
Jorge Andoni Valverde Tohalino
Institute/School/College
Knowledge Area
Date of Defense
Published
São Carlos, 2023
Supervisor
Committee
Amancio, Diego Raphael (President)
Rodrigues, Francisco Aparecido
Silva, Filipi Nascimento
Travieso, Gonzalo
Title in Portuguese
Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos
Keywords in Portuguese
Análise bibliométrica
Análise cienciométrica.
Classificação de projetos de pesquisa
Extração de palavras-chave
Processamento de linguagem natural
Redes complexas
Abstract in Portuguese
Processamento de Linguagem Natural (PLN) surgiu como uma área crítica de estudo para analisar grandes quantidades de dados textuais. No entanto, com o crescimento exponencial de big data, a análise de textos de diferentes tipos e tamanhos tornou-se mais desafiadora. Métodos existentes podem funcionar bem para conjuntos de dados específicos, mas podem não funcionar de maneira ideal para outras aplicações de texto. Por exemplo, analisar textos curtos, como títulos ou resumos de artigos científicos, pode ser desafiador porque esses textos podem conter uma quantidade limitada de informações, tornando difícil extrair insights valiosos usando abordagens de PLN tradicionais. Nesta tese, propomos uma nova metodologia que integra PLN, Redes Complexas (RC) e cienciometria/bibliometria para classificar e extrair tópicos importantes em textos científicos. Combinamos os conceitos de cada área de diversas maneiras para as tarefas de classificação de propostas de projetos de pesquisa e extração de palavras-chave. As abordagens de PLN forneceram diferentes maneiras de obter representações matemáticas de palavras e textos. Por exemplo, as representações vetoriais de palavras foram úteis para encontrar relações semânticas e contextuais para extração de palavras-chave, enquanto a representação vetorial de textos completos foi usada para tarefas de classificação. Também usamos abordagens baseadas em redes complexas para modelar relacionamentos entre textos como redes. Isso nos permite extrair informações relevantes por meio de propriedades estruturais e topológicas de redes. Em seguida, as métricas de centralidade de rede ajudaram a encontrar as palavras mais importantes em resumos e artigos de pesquisa, enquanto os métodos de detecção de comunidades foram eficientes em encontrar grupos de resumos de artigos com conteúdo semelhante. Também usamos conceitos de cienciometria e bibliometria para dois propósitos. Primeiro, extraímos características bibliométricas de pesquisadores brasileiros para a tarefa de classificação de propostas de projetos de pesquisa. Também usamos os padrões de citação de artigos científicos como fonte importante de informação para auxiliar nossa abordagem de extração de palavras-chave. Nossa pesquisa demonstra a importância de usar várias metodologias de diferentes áreas para extrair informações valiosas de textos curtos. A metodologia proposta nesta pesquisa pode ser usada posteriormente para outras aplicações de PLN e mineração de textos, como classificação de textos, agrupamento de textos e sumarização de documentos, especialmente quando os textos-alvo são pequenos e limitados em conteúdo.
Title in English
Using complex networks and natural language processing to characterize and classify scientific items
Keywords in English
Bibliometric analysis
Complex networks
Keyword extraction
Natural language processing
Research grant classification
Scientometric analysis.
Abstract in English
Natural Language Processing (NLP) has emerged as a critical area of study to analyze large amounts of textual data. However, with the exponential growth of big data, analyzing texts of different types and sizes has become more challenging. Existing methods may work well for specific datasets but may not perform optimally for other text applications. For example, analyzing short texts such as titles or abstracts of research papers could be challenging because these texts can contain a limited amount of information, making it difficult to extract valuable insights using traditional NLP approaches. In this thesis, we propose a new methodology that integrates NLP, Complex Networks (CN), and scientometrics/bibliometrics to classify and extract important topics in scientific texts. We combined the concepts from each area in various ways for research grant classification and Keyword Extraction (KE) tasks. NLP approaches provided different ways to obtain mathematical representations of words and texts. For example, word vector representations were useful in finding semantic and contextual relationships for keyword extraction, while vector representation of full texts was used for classification tasks. We also used complex network-based approaches to model relationships between texts as networks. This enables us to extract relevant information through structural and topological properties of networks. Then, network centrality metrics helped to find the most important words in abstracts and research papers, while community detection methods were efficient in finding groups of paper abstracts with similar contents. We further employed scientometric and bibliometric concepts for two purposes. First, we extracted bibliometric features from Brazilian researchers for the grant classification task. We also used the citation patterns from research papers as an important source of information to assist our keyword extraction approach. Our research demonstrates the importance of using multiple methodologies from different areas to extract valuable information from short texts. This framework can be further used for other NLP and text mining applications such as text classification, text clustering, and document summarization, particularly when the target texts are small and limited in content.
 
WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.
Publishing Date
2023-05-11
 
WARNING: Learn what derived works are clicking here.
All rights of the thesis/dissertation are from the authors
CeTI-SC/STI
Digital Library of Theses and Dissertations of USP. Copyright © 2001-2024. All rights reserved.