• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Dissertação de Mestrado
DOI
https://doi.org/10.11606/D.55.2020.tde-20082020-093906
Documento
Autor
Nome completo
Eric Macedo Cabral
E-mail
Unidade da USP
Área do Conhecimento
Data de Defesa
Imprenta
São Carlos, 2020
Orientador
Banca examinadora
Oliveira, Maria Cristina Ferreira de (Presidente)
Freitas, Carla Maria Dal Sasso
Lopes, Alneu de Andrade
Nascimento, Hugo Alexandre Dantas do
Título em inglês
Interactive keyterm-based document clustering and visualization via neural language models
Palavras-chave em inglês
Interactive document clustering
Neural language models
Visual analytics
Resumo em inglês
Interactive data clustering techniques put the user in the clustering algorithm loop, allowing not only better clustering quality, but also supporting the knowledge discovery task in large textual corpora. The keyterm guided approach is arguably intuitive, allowing the user to interact with representative words instead of interacting with a large volume of full-length documents or complex topic models. More than making the clustering algorithm adjustable with little user-effort, the visual interactive clustering approach allows the user to focus on exploring the corpus as an incremental task. After each interaction, the user can obtain new information about the corpus, and expresses it as feedback to the clustering algorithm. The visual analytics system Vis-Kt presents itself as an interactive keyterm-based document clustering system, embedded with techniques that overcome the state-of-the-art ones, such as Latent Dirichlet Allocation and the Non-negative Matrix Factorization. With a user-guided approach, Vis-Kt allows the user to draw her insights into the corpus by describing document clusters with a small set of significative terms. However, Vis-Kt and its underlying clustering algorithms depend on the Bag-of-Words model, which has several limitations concerning the information extractions scalability, the process incrementality, and the datas semantic representation. In order to overcome the limitations inherent to the Bag-of-Words model, we propose an update for the keyterm-based representation model to a machine learning approach based on neural language models. Such a model can extract semantic information and relationships from the words that are included in the corpus. This projects main contribution is a novel interactive document clustering algorithm guided by keyterms and based on neural language models. This approach shows a significant improvement compared to the baseline algorithms, considered state-of-the-art. The proposed clustering algorithm allows Vis-Kt to work incrementally, without the need to repeat the entire learning and clustering processes from the beginning. This makes the system suitable for analyzing text streams. In order to contribute to the task of knowledge discovery and to support its incremental aspect, a visual component based on the Sankey diagram was developed to depict the clustering membership changes throughout the clustering loop after each interaction with the corpus. A set of quantitative experiments on publicly available text datasets was performed to evaluate the obtained clustering results. The results reported in this work show that, in most of the experimented cases, the proposed algorithm presents a significant improvement in clustering quality measures in comparison with the baseline algorithms. In all cases, the proposed algorithm showed a gain in processing time, especially in the largest datasets. We also report two usage scenarios to qualitatively evaluate the proposed visual component.
Título em português
Agrupamento interativo e visualização de documentos baseado em termos-chave via modelos neurais de linguagem
Palavras-chave em português
Agrupamento interativo de documentos
Modelos neurais de linguagem
Visualização analítica
Resumo em português
Técnicas interativas de agrupamento de dados colocam o usuário no ciclo do algoritmo de agrupamento, permitindo não somente uma melhor qualidade de agrupamento, mas também apoiando a tarefa de descoberta de conhecimento em grandes volumes textuais. A abordagem guiada por termos-chave é sem dúvida intuitiva permitindo ao usuário a interação com palavras representativas ao invés de interagir com um grande volume de documentos ou com modelos de tópicos complexos. Mais do que tornar o algoritmo de agrupamento ajustável com pouco esforço do usuário, a abordagem de agrupamento visualmente interativo permite que o usuário foque na exploração do corpus como uma tarefa incremental. Após cada interação, o usuário pode obter novas informações sobre o corpus e expressar essas informações como feedback para o algoritmo de agrupamento. O sistema Vis-Kt apresenta-se como um sistema de visualização analítica para agrupamento de documentos basaedo em termos-chave, com técnicas que superam as técnicas considerada como estado da arte, como a Latent Dirichlet Allocation e a Non-negative Matrix Factorization. Com uma abordagem guiada pelo usuário, o sistema Vis-Kt permite ao usuário modelar seu discernimento sobre o corpus por meio de conjuntos de termos-chave que descrevem grupos de documentos. No entanto, o sistema Vis-Kt e seus algoritmos dependem do modelo Bag-of- Words, que possui várias limitações em relação à escalabilidade da extração de informação, à incrementalidade do processo e à representação semântica dos dados. Com o objetivo de superar as limitações inerentes ao Bag-of-Words, propomos uma atualização da representação por termos-chave para uma abordagem de aprendizado de máquina baseado em modelos neurais de linguagem. Tais modelos podem extrair informações semânticas e relações das palavras que compõem o corpus. A principal contribuição deste projeto é um novo algoritmo interativo de agrupamento de documentos guiado por termos-chave e baseado em modelos neurais de linguagem. Essa abordagem mostra uma melhoria significativa em comparação com os algoritmos considerados estado da arte. O algoritmo de agrupamento proposto permite que o sistema Vis-Kt funcione de forma incremental, sem a necessidade de repetir todo processo de aprendizado e agrupamento desde o início. Isso torna o sistema adequado para o uso em análises de fluxos de texto. Para contribuir com a tarefa de descoberta de conhecimento e apoiar seu aspecto incremental, foi desenvolvida uma visualização baseada no diagrama de Sankey que representa as mudanças nos agrupamentos após cada interação com o corpus. Um conjunto de experimentos quantitativos em conjuntos de dados de texto disponíveis publicamente foi realizado para avaliar os resultados dos agrupamentos obtidos. Os resultados reportados neste trabalho mostram que, na maioria dos casos experimentados, o algoritmo proposto apresenta uma melhoria significativa nas medidas de qualidade de agrupamentos em comparação com os algoritmos previamente adotados no sistema. Em todos os casos, o algoritmo proposto apresentou um ganho em tempo de processamento, principalmente nos maiores conjuntos de dados. Também relatamos dois cenários de uso para avaliar qualitativamente o componente visual proposto.
 
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2020-08-20
 
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.
Todos os direitos da tese/dissertação são de seus autores
CeTI-SC/STI
Biblioteca Digital de Teses e Dissertações da USP. Copyright © 2001-2024. Todos os direitos reservados.