Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Melo, Vinícius Veloso de

doi:10.11606/D.55.2005.tde-11122014-104427

Inicío

Serviços

Trabalhos decorrentes

Como citar

Formato MARC

Formato OAI DC

Dissertação de Mestrado

DOI

https://doi.org/10.11606/D.55.2005.tde-11122014-104427

Documento

Dissertação de Mestrado

Autor

Melo, Vinícius Veloso de (Catálogo USP)

Nome completo

Vinícius Veloso de Melo

Unidade da USP

Instituto de Ciências Matemáticas e de Computação

Área do Conhecimento

Ciências de Computação e Matemática Computacional

Data de Defesa

2005-06-24

Imprenta

São Carlos, 2005

Orientador

Lopes, Alneu de Andrade (Catálogo USP)

Banca examinadora

Lopes, Alneu de Andrade (Presidente)
Monard, Maria Carolina
Ziviani, Nivio

Título em português

Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Palavras-chave em português

Não disponível

Resumo em português

Com a popularização da Internet, a disponibilização online de documentos de qualquer espécie tornou-se extremamente rápida. Utilizando-se de ferramentas de busca, pode-se ter acesso a quase todos os tipos de informação em questão de segundos. Porém, a quantidade de sites que proporcionam alguma informação importante é, em geral, muito pequena, se comparada ao número total de páginas que é fornecido pela ferramenta de busca. Isso ocorre, basicamente, pelo fato de que as páginas retornadas são ordenadas, por exemplo, de acordo com a quantidade de acessos à página ou à quantidade de links que levam a ela. Isso significa que uma página contendo a informação que o usuário deseja, mas que esteja no final da lista, dificilmente será lida se existir uma grande, quantidade de páginas antes dela. Assim, seria de grande ajuda uma ferramenta capaz de: a) recuperar um conjunto apropriado de documentos de acordo com palavras-chave fornecidas pelo usuário; b) analisar o conteúdo dos links encontrados extraindo informações relevantes dos textos e decidir se o documento pode ser importante para o usuário; c) fazer um clustering (agrupamento por similaridade) desses documentos relevantes e d) exibir um mapa no qual documentos similares estejam próximos entre si e distantes daqueles relacionados com outra área. Essa ferramenta está sendo desenvolvida no LABIC/ICMC-USP e recebeu o nome de FIP (Ferramenta Inteligente de Apoio à Pesquisa). Este trabalho visa investigar técnicas de clustering, principalmente, as aplicadas a documentos e decidir por aquela que melhor atenda os requisitos da FIP em termos de qualidade dos clusters, tempo de processamento e consumo de memória, visto que é tratada uma grande quantidade de documentos na ferramenta. Neste trabalho são testadas técnicas de clustering aglomerativo hierárquico, de particionamento e de mapa auto-organizável em corpus de artigos científicos, jornalísticos e de fórums de discussão: são discutidas as vantagens e desvantagens de cada uma; e indicadas, no caso particular da ferramenta FIP, as abordagens apropriadas.

Título em inglês

Clustering of Scientific Papers in a Smart Tool to Support Research

Palavras-chave em inglês

Not available

Resumo em inglês

With the Internet popularization, the online deployment of any kind of document has become extremely fast. By using of searching tools, access to almost any kinds of information can be done in a matter of seconds. However, the amount of sites that provide some useful information is, in general, very small, if compared to the total number of pages supplied by the search tool. That happens, basically, by the fact that the retrieved pages are ranked, in general, in accordance with the amount of accesses to the page and/or the amount of links that point to them. That means, a page containing the information that the user desires, but at the end of a huge list, hardly will be seen. Thus, it would be very useful a tool capable of: a) to retrieve an appropriate set of document in accordance with keywords supplied by the usei", b) to analyze the content, of those documents, extracting relevant information from the texts and to decide if the document is relevant for the user; c) to group (by similarity) those documents; and d) to exhibit a map, in which similar documents are close amongst themselves and distant of those related with other fields. Such a tool is being developed at LABIC/ICMC-USP and has received the name FIP (Ferramenta Inteligente de Apoio à Pesquisa). This work, part of the FIP project, seeks to investigate clustering techniques, mainly, those applied to text, and to decide for the one that best fit to the requirements of FIP in terms of clusters quality, processing time and memory consumption. Those issues are relevant because tho tool will deal with a great amount of documents. In this work we test agglomerative hierarchical clustering techniques, partitioning techniques, and self-organizing maps techniques in corpora of scientific articles, journalistic. and discussion forums. We also discuss the advantages and disadvantages of each technique; and indicate the appropriate approaches in the particular case of the FIP tool.

AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso:
Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.

ViniciusVelosodeMelo_ME.pdf (3.36 Mbytes)

Data de Publicação

2014-12-11

Trabalhos decorrentes

AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.