Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Melo, Vinícius Veloso de

doi:10.11606/D.55.2005.tde-11122014-104427

Início

Servicios

Disertación de Maestría

DOI

https://doi.org/10.11606/D.55.2005.tde-11122014-104427

Documento

Disertación de Maestría

Autor

Melo, Vinícius Veloso de (Catálogo USP)

Nombre completo

Vinícius Veloso de Melo

Instituto/Escuela/Facultad

Instituto de Ciências Matemáticas e de Computação

Área de Conocimiento

Ciencias de la Computación y Matemática Computacional

Fecha de Defensa

2005-06-24

Publicación

São Carlos, 2005

Director

Lopes, Alneu de Andrade (Catálogo USP)

Tribunal

Lopes, Alneu de Andrade (Presidente)
Monard, Maria Carolina
Ziviani, Nivio

Título en portugués

Clustering de artigos científicos em uma ferramenta inteligente de apoio à pesquisa

Palabras clave en portugués

Não disponível

Resumen en portugués

Com a popularização da Internet, a disponibilização online de documentos de qualquer espécie tornou-se extremamente rápida. Utilizando-se de ferramentas de busca, pode-se ter acesso a quase todos os tipos de informação em questão de segundos. Porém, a quantidade de sites que proporcionam alguma informação importante é, em geral, muito pequena, se comparada ao número total de páginas que é fornecido pela ferramenta de busca. Isso ocorre, basicamente, pelo fato de que as páginas retornadas são ordenadas, por exemplo, de acordo com a quantidade de acessos à página ou à quantidade de links que levam a ela. Isso significa que uma página contendo a informação que o usuário deseja, mas que esteja no final da lista, dificilmente será lida se existir uma grande, quantidade de páginas antes dela. Assim, seria de grande ajuda uma ferramenta capaz de: a) recuperar um conjunto apropriado de documentos de acordo com palavras-chave fornecidas pelo usuário; b) analisar o conteúdo dos links encontrados extraindo informações relevantes dos textos e decidir se o documento pode ser importante para o usuário; c) fazer um clustering (agrupamento por similaridade) desses documentos relevantes e d) exibir um mapa no qual documentos similares estejam próximos entre si e distantes daqueles relacionados com outra área. Essa ferramenta está sendo desenvolvida no LABIC/ICMC-USP e recebeu o nome de FIP (Ferramenta Inteligente de Apoio à Pesquisa). Este trabalho visa investigar técnicas de clustering, principalmente, as aplicadas a documentos e decidir por aquela que melhor atenda os requisitos da FIP em termos de qualidade dos clusters, tempo de processamento e consumo de memória, visto que é tratada uma grande quantidade de documentos na ferramenta. Neste trabalho são testadas técnicas de clustering aglomerativo hierárquico, de particionamento e de mapa auto-organizável em corpus de artigos científicos, jornalísticos e de fórums de discussão: são discutidas as vantagens e desvantagens de cada uma; e indicadas, no caso particular da ferramenta FIP, as abordagens apropriadas.

Título en inglés

Clustering of Scientific Papers in a Smart Tool to Support Research

Palabras clave en inglés

Not available

Resumen en inglés

With the Internet popularization, the online deployment of any kind of document has become extremely fast. By using of searching tools, access to almost any kinds of information can be done in a matter of seconds. However, the amount of sites that provide some useful information is, in general, very small, if compared to the total number of pages supplied by the search tool. That happens, basically, by the fact that the retrieved pages are ranked, in general, in accordance with the amount of accesses to the page and/or the amount of links that point to them. That means, a page containing the information that the user desires, but at the end of a huge list, hardly will be seen. Thus, it would be very useful a tool capable of: a) to retrieve an appropriate set of document in accordance with keywords supplied by the usei", b) to analyze the content, of those documents, extracting relevant information from the texts and to decide if the document is relevant for the user; c) to group (by similarity) those documents; and d) to exhibit a map, in which similar documents are close amongst themselves and distant of those related with other fields. Such a tool is being developed at LABIC/ICMC-USP and has received the name FIP (Ferramenta Inteligente de Apoio à Pesquisa). This work, part of the FIP project, seeks to investigate clustering techniques, mainly, those applied to text, and to decide for the one that best fit to the requirements of FIP in terms of clusters quality, processing time and memory consumption. Those issues are relevant because tho tool will deal with a great amount of documents. In this work we test agglomerative hierarchical clustering techniques, partitioning techniques, and self-organizing maps techniques in corpora of scientific articles, journalistic. and discussion forums. We also discuss the advantages and disadvantages of each technique; and indicate the appropriate approaches in the particular case of the FIP tool.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

ViniciusVelosodeMelo_ME.pdf (3.36 Mbytes)

Fecha de Publicación

2014-12-11

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.