Visual analytics for machine learning - computing and leveraging decision boundary maps

Rodrigues, Francisco Caio Maia

doi:10.11606/T.45.2020.tde-27112020-071803

Accueil

Services

Thèse de Doctorat

DOI

https://doi.org/10.11606/T.45.2020.tde-27112020-071803

Document

Thèse de Doctorat

Auteur

Rodrigues, Francisco Caio Maia (Catálogo USP)

Nom complet

Francisco Caio Maia Rodrigues

Unité de l'USP

Instituto de Matemática e Estatística

Domain de Connaissance

Informatique

Date de Soutenance

2020-11-09

Editeur

São Paulo, 2020

Directeur

Hirata Junior, Roberto (Catálogo USP)

Jury

Hirata Junior, Roberto (Président)
Biehl, Michael
Cesar Junior, Roberto Marcondes
Falcão, Alexandre Xavier
Telea, Alexandru Cristian

Titre en anglais

Visual analytics for machine learning - computing and leveraging decision boundary maps

Mots-clés en anglais

Dimensionality reduction
Machine learning
Visual analytics

Resumé en anglais

Machine learning classifiers construct decision boundaries that partition data space into a set of regions to which labels are assigned. Understanding these decision boundaries can notably help the actual practical usage of such classifiers (by answering questions such as showing how a certain model is expected to behave on an empty region), as well as give insights on how to improve the training of a given model (by answering questions such as telling where should more training data be provided). In this thesis we propose and explore visual analytics methods for the explicit creation, construction, and use of decision zones of machine learning classifiers. Current methods employed to visualize how a classifier behaves on a dataset mainly use color-coded sample scatterplots, which do not explicitly show the actual decision boundaries or confusion zones. We propose an image-based technique to improve such visualizations. The method samples the 2D space of a projection and color-codes relevant classifier outputs, such as the majority class label, the confusion, and the sample density, to create a dense visual depiction of the high-dimensional decision boundaries. Our technique is simple to implement, handles any classifier, and has only two simple-to-control free parameters. We demonstrate our proposal on several real-world high-dimensional datasets, classifiers, direct and inverse projection techniques. To our knowledge, our work is the first that can create such explicit depictions of decision boundaries and decision zones for any dataset and any classifier, without explicit knowledge of the classifier's internals. Based on these visual depictions of decision boundaries, we developed a visual analytics workflow and associated tooling that allows users to perform two common techniques in machine learning - data augmentation and interactive labeling of unseen samples. We show that our approach can be used to perform guided data augmentation in order to shape the decision boundaries learned by a classifier according to the user's input. For interactive labeling, we show that our proposed visual depiction of decision boundaries helps in producing improved labeling in an active learning scenario.

Titre en portugais

Visual analytics para aprendizado de máquina - computando e analisando mapas da fronteira de decisão de classificadores

Mots-clés en portugais

Aprendizado de máquina
Redução de dimensionalidade
Visualização de dados

Resumé en portugais

Modelos de aprendizado de máquina chamados classificadores constroem fronteiras de decisão que particionam um certo espaço de dados em um conjunto de regiões, associando-as a um rótulo. Entender a estrutura e forma de tais fronteiras de decisão pode ser de grande ajuda no uso prático de tais classificadores, respondendo, por exemplo, questões sobre como espera-se que certo modelo se comporte em uma região vazia do espaço. Além disso, tal entendimento pode ajudar a dar ideias que levem a melhoria do treino de um certo modelo, por exemplo através da indicação de \emph mais dados de treino poderiam ser coletados. Nessa tese, propomos e exploramos métodos de visualização para a criação e o uso de modelos visuais das fronteiras de decisão inferidas por classificaores de aprendizado de máquina. Atualmente, métodos utilizados para visualizar o comportamento de um classificador treinado em um certo conjunto de dados fazem uso scatterplot, colorindo os pontos de acordo com a classe atribuida pelo modelo. Nesta tese, propomos uma técnica baseada em imagens para aprimorar tais visualizações. Nosso método amostra o espaço 2D de uma projeção, codificando nas cores dos pixels aspectos relevantes de um classificador treinado, como a maioria dos rótulos naquela região, o grau de confusão e a densidade de amostras, criando uma imagem densa das fronteiras inferidas em espaços de alta dimensão. O método proposto é simples de implementar, funciona para qualquer classificador e possui apenas dois parâmetros intuitivos. Demonstramos o uso da técnica proposta em diferentes datasets de alta dimensionalidade, classificadores, projeções diretas e inversas. No nosso conhecimento, nosso trabalho é o primeiro capaz de criar tais visualizações explícitas das fronteiras de classificadores, para qualquer dataset e classificador, sem necessidade do conhecimento do funcionamento de detalhes internos dos modelos. Baseado nas descrições visuais das fronteiras de decisão, nós desenvolvemos um workflow de visual analytics e uma ferramenta gráfica que permite aos usuários realizarem a rotulagem interativa de amostras. Mostramos ainda que o nosso método proposto de visualização é capaz de ajudar em cenários de rotulação, como é o caso de aprendizado ativo.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

tese.pdf (37.63 Mbytes)

Date de Publication

2020-12-17

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.