Dissertação de Mestrado
Documento
Dissertação de Mestrado
Autor
Scardua, Wendel
(
)
Nome completo
Wendel Scardua
Unidade da USP
Instituto de Matemática e Estatística
Programa ou Especialidade
Data de Defesa
2009-05-13
Imprenta
São Paulo, 2009
Orientador
Banca examinadora
Lago, Alair Pereira do (Presidente)
Finger, Marcelo
Kinoshita, Jorge
Título em português
Métodos de expansão de busca em sistemas de recuperação de informação
Palavras-chave em português
Expansão de consulta, Recuperação de Informação, Sintagmas nominais
Resumo em português
Com o explosivo crescimento da Internet e da produção de conteudo em formato digital área de Recuperação de Informação (RI) e os sistemas de RI têm assumido papel cada vez mais importante na organização da sociedade. Se por um lado os tamanhos sempre mais gigantescos das coleções a serem indexadas colocam desafios sempre mais crescentes, é tambem verdade que o estudo dos algoritmos de busca e de estruturas de dados avancadas ja esta maduro o suficiente para que o problema de uma busca exata por termos de uma consulta possa ser realizado em tempo bastante eficiente e independente do tamanho da coleção de documentos indexada. Como o mesmo não se pode dizer de uma busca inexata, por exemplo, a ferramenta basica num sistema de RI e quase sempre o da busca exata de termos numa coleção de documentos. Se por um lado as respostas a estas buscas exatas são ja uma excelente resposta inicial, a verdade e que muito há ainda que ser melhorado, de forma que os documentos a serem devolvidos sejam aqueles relevantes à pergunta e ao contexto em que o usuario deseja. Os chamados metodos de expansão de consulta são neste contexto bastante importantes de forma a reformular a consulta original e aprimorar os resultados de forma que um documento que fale de automovel possa, por exemplo, ser devolvido quando o usuario formula uma busca por carro. Como fazer isto sem introduzir numero excessivo de documentos espurios (aumentando a cobertura sem contudo prejudicar a precisão da resposta) e sempre um desafio. A corrente dissertação faz uma pequena revisão de varias abordagens que buscam resolver este problema atacado pela expansão de consulta, bem como apresenta resultados de experimentos amplos com duas destas tecnicas, usando um corpus qualificado de 210.734 notcias dos jornais A Folha de São Paulo e O Publico que foram usados na Oficina CLEF-2006. O melhor resultado entre as duas tecnicas aqui estudadas so e inferior aos melhores resultados das duas melhores equipes que então submeteram resultados à trilha de Lngua Portuguesa.
Título em inglês
not available
Palavras-chave em inglês
Information retrieval, Noun phrases, Query expansion
Resumo em inglês
With the Internet and digital content production boom, the Information Retrievel (IR) área and IR systems have gained more and more importance on our society. Although the even bigger collections to be indexed makes working with them even more challenging, it is also true that the search algorithms and advanced data structures studies are already well-developed enough to the point in which the exact match search can be done in a very short time, no matter how big that document collecion is. As the same can not be said about IR system tools, e.g. inexact match, the most basic tool for such systems is usually that of exact match by terms from a query. Although the results obtained by those exact matches may be good enough for a start, the truth is that there is a lot of space for improvement, so that the documents to be returned to the user be more relevant to the question and context the user had in mind. The so-called query expansion methods are, in this way, very important for rewriting the original query and improve the obtained results so as a document about automobiles can be returned when the user does a search for cars. The challenge is how to do that without introducing an excessive amount of non-related documents (increasing the recall without reducing too much the precision of the answer). This thesis makes a review of many approaches to this problem, as well as it shows the results obtained from the many experiments done with two of those approaches, using an collection of 210.734 news from the newspapers A Folha de São Paulo and O Público, originally used on CLEF-2006. The best result achieved here is only worse than that of the two best teams to have results submitted on CLEFs Portuguese Language track then.
AVISO - A consulta a este documento fica condicionada na aceitação das seguintes condições de uso: Este trabalho é somente para uso privado de atividades de pesquisa e ensino. Não é autorizada sua reprodução para quaisquer fins lucrativos. Esta reserva de direitos abrange a todos os dados do documento bem como seu conteúdo. Na utilização ou citação de partes do documento é obrigatório mencionar nome da pessoa autora do trabalho.
Data de Publicação
2024-10-22
Trabalhos decorrentes
AVISO: Saiba o que são os trabalhos decorrentes clicando aqui.