• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Tesis Doctoral
DOI
https://doi.org/10.11606/T.55.2023.tde-11042023-090221
Documento
Autor
Nombre completo
Jorge Andoni Valverde Tohalino
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2023
Director
Tribunal
Amancio, Diego Raphael (Presidente)
Rodrigues, Francisco Aparecido
Silva, Filipi Nascimento
Travieso, Gonzalo
Título en portugués
Usando redes complexas e processamento de línguas naturais para caracterizar e classificar itens científicos
Palabras clave en portugués
Análise bibliométrica
Análise cienciométrica.
Classificação de projetos de pesquisa
Extração de palavras-chave
Processamento de linguagem natural
Redes complexas
Resumen en portugués
Processamento de Linguagem Natural (PLN) surgiu como uma área crítica de estudo para analisar grandes quantidades de dados textuais. No entanto, com o crescimento exponencial de big data, a análise de textos de diferentes tipos e tamanhos tornou-se mais desafiadora. Métodos existentes podem funcionar bem para conjuntos de dados específicos, mas podem não funcionar de maneira ideal para outras aplicações de texto. Por exemplo, analisar textos curtos, como títulos ou resumos de artigos científicos, pode ser desafiador porque esses textos podem conter uma quantidade limitada de informações, tornando difícil extrair insights valiosos usando abordagens de PLN tradicionais. Nesta tese, propomos uma nova metodologia que integra PLN, Redes Complexas (RC) e cienciometria/bibliometria para classificar e extrair tópicos importantes em textos científicos. Combinamos os conceitos de cada área de diversas maneiras para as tarefas de classificação de propostas de projetos de pesquisa e extração de palavras-chave. As abordagens de PLN forneceram diferentes maneiras de obter representações matemáticas de palavras e textos. Por exemplo, as representações vetoriais de palavras foram úteis para encontrar relações semânticas e contextuais para extração de palavras-chave, enquanto a representação vetorial de textos completos foi usada para tarefas de classificação. Também usamos abordagens baseadas em redes complexas para modelar relacionamentos entre textos como redes. Isso nos permite extrair informações relevantes por meio de propriedades estruturais e topológicas de redes. Em seguida, as métricas de centralidade de rede ajudaram a encontrar as palavras mais importantes em resumos e artigos de pesquisa, enquanto os métodos de detecção de comunidades foram eficientes em encontrar grupos de resumos de artigos com conteúdo semelhante. Também usamos conceitos de cienciometria e bibliometria para dois propósitos. Primeiro, extraímos características bibliométricas de pesquisadores brasileiros para a tarefa de classificação de propostas de projetos de pesquisa. Também usamos os padrões de citação de artigos científicos como fonte importante de informação para auxiliar nossa abordagem de extração de palavras-chave. Nossa pesquisa demonstra a importância de usar várias metodologias de diferentes áreas para extrair informações valiosas de textos curtos. A metodologia proposta nesta pesquisa pode ser usada posteriormente para outras aplicações de PLN e mineração de textos, como classificação de textos, agrupamento de textos e sumarização de documentos, especialmente quando os textos-alvo são pequenos e limitados em conteúdo.
Título en inglés
Using complex networks and natural language processing to characterize and classify scientific items
Palabras clave en inglés
Bibliometric analysis
Complex networks
Keyword extraction
Natural language processing
Research grant classification
Scientometric analysis.
Resumen en inglés
Natural Language Processing (NLP) has emerged as a critical area of study to analyze large amounts of textual data. However, with the exponential growth of big data, analyzing texts of different types and sizes has become more challenging. Existing methods may work well for specific datasets but may not perform optimally for other text applications. For example, analyzing short texts such as titles or abstracts of research papers could be challenging because these texts can contain a limited amount of information, making it difficult to extract valuable insights using traditional NLP approaches. In this thesis, we propose a new methodology that integrates NLP, Complex Networks (CN), and scientometrics/bibliometrics to classify and extract important topics in scientific texts. We combined the concepts from each area in various ways for research grant classification and Keyword Extraction (KE) tasks. NLP approaches provided different ways to obtain mathematical representations of words and texts. For example, word vector representations were useful in finding semantic and contextual relationships for keyword extraction, while vector representation of full texts was used for classification tasks. We also used complex network-based approaches to model relationships between texts as networks. This enables us to extract relevant information through structural and topological properties of networks. Then, network centrality metrics helped to find the most important words in abstracts and research papers, while community detection methods were efficient in finding groups of paper abstracts with similar contents. We further employed scientometric and bibliometric concepts for two purposes. First, we extracted bibliometric features from Brazilian researchers for the grant classification task. We also used the citation patterns from research papers as an important source of information to assist our keyword extraction approach. Our research demonstrates the importance of using multiple methodologies from different areas to extract valuable information from short texts. This framework can be further used for other NLP and text mining applications such as text classification, text clustering, and document summarization, particularly when the target texts are small and limited in content.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2023-05-11
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.