Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Melo, Vinícius Veloso de

doi:10.11606/D.55.2005.tde-11122014-104427

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.55.2005.tde-11122014-104427

Document

Mémoire de Maîtrise

Auteur

Melo, Vinícius Veloso de (Catálogo USP)

Nom complet

Vinícius Veloso de Melo

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Informatique et Mathématique Computationnelle

Date de Soutenance

2005-06-24

Editeur

São Carlos, 2005

Directeur

Lopes, Alneu de Andrade (Catálogo USP)

Jury

Lopes, Alneu de Andrade (Président)
Monard, Maria Carolina
Ziviani, Nivio

Titre en portugais

Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Mots-clés en portugais

Não disponível

Resumé en portugais

Com a popularização da Internet, a disponibilização online de documentos de qualquer espécie tornou-se extremamente rápida. Utilizando-se de ferramentas de busca, pode-se ter acesso a quase todos os tipos de informação em questão de segundos. Porém, a quantidade de sites que proporcionam alguma informação importante é, em geral, muito pequena, se comparada ao número total de páginas que é fornecido pela ferramenta de busca. Isso ocorre, basicamente, pelo fato de que as páginas retornadas são ordenadas, por exemplo, de acordo com a quantidade de acessos à página ou à quantidade de links que levam a ela. Isso significa que uma página contendo a informação que o usuário deseja, mas que esteja no final da lista, dificilmente será lida se existir uma grande, quantidade de páginas antes dela. Assim, seria de grande ajuda uma ferramenta capaz de: a) recuperar um conjunto apropriado de documentos de acordo com palavras-chave fornecidas pelo usuário; b) analisar o conteúdo dos links encontrados extraindo informações relevantes dos textos e decidir se o documento pode ser importante para o usuário; c) fazer um clustering (agrupamento por similaridade) desses documentos relevantes e d) exibir um mapa no qual documentos similares estejam próximos entre si e distantes daqueles relacionados com outra área. Essa ferramenta está sendo desenvolvida no LABIC/ICMC-USP e recebeu o nome de FIP (Ferramenta Inteligente de Apoio à Pesquisa). Este trabalho visa investigar técnicas de clustering, principalmente, as aplicadas a documentos e decidir por aquela que melhor atenda os requisitos da FIP em termos de qualidade dos clusters, tempo de processamento e consumo de memória, visto que é tratada uma grande quantidade de documentos na ferramenta. Neste trabalho são testadas técnicas de clustering aglomerativo hierárquico, de particionamento e de mapa auto-organizável em corpus de artigos científicos, jornalísticos e de fórums de discussão: são discutidas as vantagens e desvantagens de cada uma; e indicadas, no caso particular da ferramenta FIP, as abordagens apropriadas.

Titre en anglais

Clustering of Scientific Papers in a Smart Tool to Support Research

Mots-clés en anglais

Not available

Resumé en anglais

With the Internet popularization, the online deployment of any kind of document has become extremely fast. By using of searching tools, access to almost any kinds of information can be done in a matter of seconds. However, the amount of sites that provide some useful information is, in general, very small, if compared to the total number of pages supplied by the search tool. That happens, basically, by the fact that the retrieved pages are ranked, in general, in accordance with the amount of accesses to the page and/or the amount of links that point to them. That means, a page containing the information that the user desires, but at the end of a huge list, hardly will be seen. Thus, it would be very useful a tool capable of: a) to retrieve an appropriate set of document in accordance with keywords supplied by the usei", b) to analyze the content, of those documents, extracting relevant information from the texts and to decide if the document is relevant for the user; c) to group (by similarity) those documents; and d) to exhibit a map, in which similar documents are close amongst themselves and distant of those related with other fields. Such a tool is being developed at LABIC/ICMC-USP and has received the name FIP (Ferramenta Inteligente de Apoio à Pesquisa). This work, part of the FIP project, seeks to investigate clustering techniques, mainly, those applied to text, and to decide for the one that best fit to the requirements of FIP in terms of clusters quality, processing time and memory consumption. Those issues are relevant because tho tool will deal with a great amount of documents. In this work we test agglomerative hierarchical clustering techniques, partitioning techniques, and self-organizing maps techniques in corpora of scientific articles, journalistic. and discussion forums. We also discuss the advantages and disadvantages of each technique; and indicate the appropriate approaches in the particular case of the FIP tool.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

ViniciusVelosodeMelo_ME.pdf (3.36 Mbytes)

Date de Publication

2014-12-11

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.