Visual analytics for machine learning - computing and leveraging decision boundary maps

Rodrigues, Francisco Caio Maia

doi:10.11606/T.45.2020.tde-27112020-071803

Início

Servicios

Tesis Doctoral

DOI

https://doi.org/10.11606/T.45.2020.tde-27112020-071803

Documento

Tesis Doctoral

Autor

Rodrigues, Francisco Caio Maia (Catálogo USP)

Nombre completo

Francisco Caio Maia Rodrigues

Instituto/Escuela/Facultad

Instituto de Matemática e Estatística

Área de Conocimiento

Informática

Fecha de Defensa

2020-11-09

Publicación

São Paulo, 2020

Director

Hirata Junior, Roberto (Catálogo USP)

Tribunal

Hirata Junior, Roberto (Presidente)
Biehl, Michael
Cesar Junior, Roberto Marcondes
Falcão, Alexandre Xavier
Telea, Alexandru Cristian

Título en inglés

Visual analytics for machine learning - computing and leveraging decision boundary maps

Palabras clave en inglés

Dimensionality reduction
Machine learning
Visual analytics

Resumen en inglés

Machine learning classifiers construct decision boundaries that partition data space into a set of regions to which labels are assigned. Understanding these decision boundaries can notably help the actual practical usage of such classifiers (by answering questions such as showing how a certain model is expected to behave on an empty region), as well as give insights on how to improve the training of a given model (by answering questions such as telling where should more training data be provided). In this thesis we propose and explore visual analytics methods for the explicit creation, construction, and use of decision zones of machine learning classifiers. Current methods employed to visualize how a classifier behaves on a dataset mainly use color-coded sample scatterplots, which do not explicitly show the actual decision boundaries or confusion zones. We propose an image-based technique to improve such visualizations. The method samples the 2D space of a projection and color-codes relevant classifier outputs, such as the majority class label, the confusion, and the sample density, to create a dense visual depiction of the high-dimensional decision boundaries. Our technique is simple to implement, handles any classifier, and has only two simple-to-control free parameters. We demonstrate our proposal on several real-world high-dimensional datasets, classifiers, direct and inverse projection techniques. To our knowledge, our work is the first that can create such explicit depictions of decision boundaries and decision zones for any dataset and any classifier, without explicit knowledge of the classifier's internals. Based on these visual depictions of decision boundaries, we developed a visual analytics workflow and associated tooling that allows users to perform two common techniques in machine learning - data augmentation and interactive labeling of unseen samples. We show that our approach can be used to perform guided data augmentation in order to shape the decision boundaries learned by a classifier according to the user's input. For interactive labeling, we show that our proposed visual depiction of decision boundaries helps in producing improved labeling in an active learning scenario.

Título en portugués

Visual analytics para aprendizado de máquina - computando e analisando mapas da fronteira de decisão de classificadores

Palabras clave en portugués

Aprendizado de máquina
Redução de dimensionalidade
Visualização de dados

Resumen en portugués

Modelos de aprendizado de máquina chamados classificadores constroem fronteiras de decisão que particionam um certo espaço de dados em um conjunto de regiões, associando-as a um rótulo. Entender a estrutura e forma de tais fronteiras de decisão pode ser de grande ajuda no uso prático de tais classificadores, respondendo, por exemplo, questões sobre como espera-se que certo modelo se comporte em uma região vazia do espaço. Além disso, tal entendimento pode ajudar a dar ideias que levem a melhoria do treino de um certo modelo, por exemplo através da indicação de \emph mais dados de treino poderiam ser coletados. Nessa tese, propomos e exploramos métodos de visualização para a criação e o uso de modelos visuais das fronteiras de decisão inferidas por classificaores de aprendizado de máquina. Atualmente, métodos utilizados para visualizar o comportamento de um classificador treinado em um certo conjunto de dados fazem uso scatterplot, colorindo os pontos de acordo com a classe atribuida pelo modelo. Nesta tese, propomos uma técnica baseada em imagens para aprimorar tais visualizações. Nosso método amostra o espaço 2D de uma projeção, codificando nas cores dos pixels aspectos relevantes de um classificador treinado, como a maioria dos rótulos naquela região, o grau de confusão e a densidade de amostras, criando uma imagem densa das fronteiras inferidas em espaços de alta dimensão. O método proposto é simples de implementar, funciona para qualquer classificador e possui apenas dois parâmetros intuitivos. Demonstramos o uso da técnica proposta em diferentes datasets de alta dimensionalidade, classificadores, projeções diretas e inversas. No nosso conhecimento, nosso trabalho é o primeiro capaz de criar tais visualizações explícitas das fronteiras de classificadores, para qualquer dataset e classificador, sem necessidade do conhecimento do funcionamento de detalhes internos dos modelos. Baseado nas descrições visuais das fronteiras de decisão, nós desenvolvemos um workflow de visual analytics e uma ferramenta gráfica que permite aos usuários realizarem a rotulagem interativa de amostras. Mostramos ainda que o nosso método proposto de visualização é capaz de ajudar em cenários de rotulação, como é o caso de aprendizado ativo.

ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.

tese.pdf (37.63 Mbytes)

Fecha de Publicación

2020-12-17

Trabajos derivados

ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.