• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2019.tde-11092019-090930
Documento
Autor
Nombre completo
Amanda Gonçalves Dias
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2019
Director
Tribunal
Oliveira, Maria Cristina Ferreira de (Presidente)
Moreira, Viviane Pereira
Paiva, José Gustavo de Souza
Paulovich, Fernando Vieira
Título en inglés
TRIVIR: A Visualization System to Support Document Retrieval with High Recall
Palabras clave en inglés
Information retrieval
Machine learning
Total recall
Visualization
Vocabulary mismatch
Resumen en inglés
A high recall problem in document retrieval is described by scenarios in which one wants to ensure that, given one (or multiple) query document(s), (nearly) all relevant related documents are retrieved, with minimum human effort. The problem may be expressed as a document similarity search: a user picks an example document (or multiple ones), and an automatic system recovers similar ones from a collection. This problem is often handled with a so-called Continuous Active Learning strategy: given the initial query, which is a document described by a set of relevant terms, a learning method returns the most-likely relevant documents (e.g., the most similar) to the reviewer in batches, the reviewer labels each document as relevant/not relevant and this information is fed back into the learning algorithm, which uses it to refine its predictions. This iterative process goes on until some quality condition is satisfied, which might demand high human effort, since documents are displayed as ranked lists and need to be labeled individually, and impact negatively the convergence of the learning algorithm. Besides, the vocabulary mismatch issue, i.e., when distinct terminologies are employed to describe semantically related or equivalent concepts, can impair recall capability. We propose TRIVIR, a novel interactive visualization tool powered by an information retrieval (IR) engine that implements an active learning protocol to support IR with high recall. The system integrates multiple graphical views in order to assist the user identifying the relevant documents in a collection. Given representative documents as queries, users can interact with the views to label documents as relevant/not relevant, and this information is used to train a machine learning (ML) algorithm which suggests other potentially relevant documents. TRIVIR offers two major advantages over existing visualization systems for IR. First, it merges the ML algorithm output into the visualization, while supporting several user interactions in order to enhance and speed up its convergence. Second, it tackles the vocabulary mismatch problem, by providing terms synonyms and a view that conveys how the terms are used within the collection. Besides, TRIVIR has been developed as a flexible front-end interface that can be associated with distinct text representations and multidimensional projection techniques. We describe two use cases conducted with collaborators who are potential users of TRIVIR. Results show that the system simplified the search for relevant documents in large collections, based on the context in which the terms occur.
Título en portugués
TRIVIR: Um sistema de visualização para apoio à recuperação de documentos com alta cobertura
Palabras clave en portugués
Aprendizado de máquina
Cobertura total
Incompatibilidade de vocabulário
Recuperação de informação
Visualização
Resumen en portugués
No âmbito de recuperação de documentos, há situações em que é preciso assegurar que todos os documentos relevantes para uma dada consulta serão recuperados, de preferência com um esforço humano mínimo. Uma das maneiras de formular este problema de recuperação com alta cobertura é com uma consulta por similaridade: um usuário seleciona um (ou vários) documento(s), e um sistema automático é utilizado para recuperar, de uma coleção, os documentos semelhantes aos apresentados. Uma maneira usual de abordar o problema adota uma estratégia denominada Continuous Active Learning, em que dado o(s) documento(s) de consulta, descrito por seus termos relevantes, um método de aprendizado de máquina retorna e apresenta ao analista, em lotes, os documentos mais provavelmente relevantes, ou mais similares a esse(s). O analista classifica cada documento quanto à relevância, realimentando o algoritmo de aprendizado, o qual pode então refinar suas previsões. Esse processo interativo continua até que alguma condição de qualidade seja satisfeita, o que pode exigir grande esforço do usuário, já que os documentos são oferecidos no formato de listas ranqueadas e devem ser marcados individualmente, e impactar negativamente a convergência do algoritmo de aprendizado. Ademais, uma das dificuldades é a incompatibilidade de vocabulário, quando terminologias distintas são empregadas para descrever conceitos semanticamente relacionados, o que pode prejudicar a identificação dos documentos relevantes. Neste trabalho propomos TRIVIR, uma visualização interativa alimentada por um motor de recuperação de informação (RI) que implementa o protocolo Continuous Active Learning com o fim de auxiliar RI de alta cobertura. O sistema integra várias representações gráficas para auxiliar o usuário a identificar documentos relevantes em uma coleção. Dados documentos representativos como entrada, usuários podem interagir com as visualizações e marcar documentos como relevantes/não relevantes. Esta informação é utilizada para treinar um algoritmo de aprendizado de máquina que, por sua vez, sugere documentos potencialmente relevantes. TRIVIR oferece duas principais vantagens em relação a outros sistemas de visualização para RI. Primeiro, integra a visualização a um algoritmo de aprendizado de máquina com o qual usários podem interagir para melhorar e acelerar a convergência do algoritmo. Segundo, o sistema trata o problema de incompatibilidade de vocabulário, provendo sinônimos dos termos e o contexto no qual termos são utilizados na coleção. TRIVIR foi desenvolvido como uma interface web flexível podendo ser associado com diferentes técnicas de representação de documentos e projeção multidimensional. Descrevemos dois casos de uso conduzidos com potenciais usuários do TRIVIR. Resultados mostraram que o sistema facilitou a pesquisa por documentos relevantes em grandes coleções, por meio da utilização da informação do contexto no qual os termos ocorrem.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2019-09-11
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.