Doctoral Thesis
Full name
Rachel Virgínia Xavier Aires
Knowledge Area
Date of Defense
São Carlos, 2005
Aluisio, Sandra Maria (President)
Almeida, Gladis Maria de Barcellos
Lima, Vera Lucia Strube de
Medeiros, Marisa Bräscher Basílio
Pimentel, Maria da Graça Campos
Title in Portuguese
Uso de marcadores estilísticos para a busca na Web em português
Keywords in Portuguese
Não disponível
Abstract in Portuguese
Como lidar com o excesso de informação ao qual usuários são submetidos em suas buscas na Web? São muitas as páginas sobre um mesmo assunto, por isso uma solução pode ser separá-las segundo os objetivos dos escritores. Melhor ainda seria separá-las segundo os objetivos dos leitores, tão diversos como buscar um programa, aprender sobre uma matéria ou saber as últimas notícias sobre um dado assunto. Esse é o objetivo desta tese. Ir além do conteúdo dos textos para minimizar o esforço do usuário em encontrar os documentos que são relevantes para sua consulta em um dado instante de busca. Investigou-se pela primeira vez a hipótese de que é tecnicamente possível e de fácil compreensão a classificação resultados de busca segundo os seus objetivos. Para isso estudou-se a classificação automática dos resultados de buscas na Web em português segundo a intenção da busca. Foram aplicados algoritmos de aprendizado de máquina sobre características linguísticas relacionadas com o estilo de documentos em português, e desenvolvidos estudos com usuários para avaliar na prática os classificadores criados. Foi também investigada a possibilidade de desenvolver classificadores personalizados que.dentro de um determinado assunto, separassem páginas interessantes de outras irrelevantes, com base em pequenos corpora de treinamento. Para a avaliação, foram utilizadas tanto as avaliações de sistema como as centradas no usuário. Os resultados mostram que (i) a classificação em necessidades é um conceito compreendido pelos usuários, (li) o uso de marcadores estilísticos é um caminho barato e eficiente a ser investigado para obter classificadores confiáveis, (iii) o treinamento com pequenos corpora da Web é capaz de gerar classificadores confiáveis, e (iv) a busca pode ser facilitada por resultados classificados segundo necessidades de busca.
Title in English
Using style markers in Portuguese Web Searching.
Keywords in English
Not available
Abstract in English
How should one cope with information overtlow. when there are too many pages on the Web aboul almost every subject? This thesis addresses the problem of information overtlow users taco when dealing with Web search results. To go beyond content it is proposed to classifv pages according to the seareli goals they sorve from a user point of view: to download a system learn some subject or find news about another are quite different user goals. The hypothesis validated in the present dissertation is that it is both technically feasible and understandble to classifv Web pages according to user goal. By using machine learning teehniques over linguistically inspired features. automatic classifiers were built to distinguish among user needs. Also. several user studies were conducted to assess the understandability of the concepts at stake and the gain achieved by using the particular classification in the displav of the results. In addition. this work also tested personalized binarv classifiers about specilfic subjects. traíned in small traming corpora supplied by the users themselves. With regard to evaluation. both system evaluation and user-centered evaluation were performed. The results show that (i) the user needs classification is understood by the user. (ii) the use of style markers are a reliable path to be investigated (iii) traimng on small Web corpora is able to generate reliable classifiers. and ( iv ) search can be eased by classifying scarch results according to user needs.
