Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação

Santos, Fabiano Fernandes dos

doi:10.11606/D.55.2010.tde-17112010-110417

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.55.2010.tde-17112010-110417

Documento

Dissertação de Mestrado

Autor

Santos, Fabiano Fernandes dos (Catálogo USP)

Nome completo

Fabiano Fernandes dos Santos

E-mail

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2010-09-17

Imprenta

São Carlos, 2010

Orientador

Rezende, Solange Oliveira (Catálogo USP)

Banca examinadora

Rezende, Solange Oliveira (Presidente)
Carvalho, Alexandre Plastino de
Lopes, Alneu de Andrade

Título em português

Selecionando candidatos a descritores para agrupamentos hierárquicos de documentos utilizando regras de associação

Palavras-chave em português

Agrupamento hierárquico de documantos
Descritores para agrupamentos hierárquicos
Mineração de texto
Regras de associação

Resumo em português

Uma forma de extrair e organizar o conhecimento, que tem recebido muita atenção nos últimos anos, é por meio de uma representação estrutural dividida por tópicos hierarquicamente relacionados. Uma vez construída a estrutura hierárquica, é necessário encontrar descritores para cada um dos grupos obtidos pois a interpretação destes grupos é uma tarefa complexa para o usuário, já que normalmente os algoritmos não apresentam descrições conceituais simples. Os métodos encontrados na literatura consideram cada documento como uma bag-of-words e não exploram explicitamente o relacionamento existente entre os termos dos documento do grupo. No entanto, essas relações podem trazer informações importantes para a decisão dos termos que devem ser escolhidos como descritores dos nós, e poderiam ser representadas por regras de associação. Assim, o objetivo deste trabalho é avaliar a utilização de regras de associação para apoiar a identificação de descritores para agrupamentos hierárquicos. Para isto, foi proposto o método SeCLAR (Selecting Candidate Labels using Association Rules), que explora o uso de regras de associação para a seleção de descritores para agrupamentos hierárquicos de documentos. Este método gera regras de associação baseadas em transações construídas à partir de cada documento da coleção, e utiliza a informação de relacionamento existente entre os grupos do agrupamento hierárquico para selecionar candidatos a descritores. Os resultados da avaliação experimental indicam que é possível obter uma melhora significativa com relação a precisão e a cobertura dos métodos tradicionais

Título em inglês

Selecting candidate labels for hierarchical document clusters using association rules

Palavras-chave em inglês

Association rules
Hierarchical document clustering
Label hierarchical clustering
Text mining

Resumo em inglês

One way to organize knowledge, that has received much attention in recent years, is to create a structural representation divided by hierarchically related topics. Once this structure is built, it is necessary to find labels for each of the obtained clusters, since most algorithms do not produce simple descriptions and the interpretation of these clusters is a difficult task for users. The related works consider each document as a bag-of-words and do not explore explicitly the relationship between the terms of the documents. However, these relationships can provide important information to the decision of the terms that must be chosen as descriptors of the nodes, and could be represented by rass. This works aims to evaluate the use of association rules to support the identification of labels for hierarchical document clusters. Thus, this paper presents the SeCLAR (Selecting Candidate Labels using Association Rules) method, which explores the use of association rules for the selection of good candidates for labels of hierarchical clusters of documents. This method generates association rules based on transactions built from each document in the collection, and uses the information relationship between the nodes of hierarchical clustering to select candidates for labels. The experimental results show that it is possible to obtain a significant improvement with respect to precision and recall of traditional methods

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

dissertacao_fabiano_fernandes_dos_santos.pdf (1.98 Mbytes)

Data de Publicação

2010-11-18

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.