Random Forest interpretability - explaining classification models and multivariate data through logic rules visualizations

Popolin Neto, Mário

doi:10.11606/T.55.2021.tde-03032022-105725

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.55.2021.tde-03032022-105725

Document

Doctoral Thesis

Author

Popolin Neto, Mário (Catálogo USP)

Full name

Mário Popolin Neto

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2021-12-15

Published

São Carlos, 2021

Supervisor

Paulovich, Fernando Vieira (Catálogo USP)

Committee

Paulovich, Fernando Vieira (President)
Carvalho, André Carlos Ponce de Leon Ferreira de
Freitas, Carla Maria Dal Sasso
Marana, Aparecido Nilceu

Title in English

Random Forest interpretability - explaining classification models and multivariate data through logic rules visualizations

Keywords in English

Classification Models Interpretability and Models and Multivariate Data Explanations
Logic Rules Visualization
Random Forest

Abstract in English

Classification models have immense potential and ubiquitous future, considering the vast number of prediction tasks in different domains where such models are applicable. Models interpretability may be just as important as performance, providing global and local explanations to interpret the acquired knowledge and audit decisions. In addition to the predictive ability, classification models can also be employed as descriptive tools, where interpretability involves data explanations. Logic rules have been widely used in interpretability solutions, and Decision Trees are well recognized for consistent logic rules generation. The Random Forest approach (Decision Trees ensemble) has been broadly adopted due to its ability to produce accurate results and deal with multivariate datasets. However, Random Forest models interpretability faces the challenge of handling a substantial number of logic rules. Based on logic rules visualization into a matrix-like visual metaphor, this doctoral thesis leads to Visual Analytics methods for Random Forest models interpretability, supporting models and data explanations covering predictive and descriptive purposes. For models (predictive) explanations, ExMatrix arranges logic rules towards global and local visual representations, providing overviews and decisions reasoning. Global explanations can unveil the knowledge learned by the model from a class-labeled dataset, whereas local explanations focus on a particular data instance classification. For data (descriptive) explanations, VAX handles logic rules, resulting in descriptive rules visualization for automated data insights. Data explanations support the identification and visual interpretation of patterns in multivariate datasets. Any problem denoted by a class-labeled dataset is a potential use case for the proposed methods. ExMatrix was applied in analytical chemistry, and VAX was used in real-world datasets for multivariate data analyses. The main contribution of this doctoral thesis lies in Visual Analytics methods supporting Random Forest interpretability for predictive and descriptive purposes in model and data explanations.

Title in Portuguese

Intepretabilidade de Random Forest - explicando modelos de classificação e dados multivariados por meio de visualizações de regras lógicas

Keywords in Portuguese

Intepretailidade de modelos de classificação e Explicações de modelos e de dados multivariados
Random forest
Visualização de regras lógicas

Abstract in Portuguese

Modelos de classificação possuem imenso potencial e futuro ubíquo, considerando o vasto número de tarefas preditivas em diferentes domínios onde estes modelos são aplicáveis. A interpretabilidade dos modelos pode ser tão importante quanto a performance, fornecendo explicações globais e locais para interpretar os conhecimentos adquiridos e auditar decisões. Além da capacidade preditiva, modelos de classificação podem ser aplicados como ferramentas descritivas, onde intepretabilidade envolve explicações de dados. Regras lógicas vêm sendo amplamente utilizadas em soluções para interpretabilidade e Decision Trees são reconhecidas pela geração de regras lógicas consistentes. A abordagem Random Forest conjunto de Decision Trees tem sido amplamente adotada devido a sua habilidade em produzir resultados precisos e manipular conjuntos de dados multivariados. Entretanto, a intepretabilidade de modelos Random Forest enfrenta o desafio de gerir um número considerável de regras. Baseado na visualização de regras lógicas em uma metáfora visual em formato de matriz, esta tese de doutorado resulta em métodos de Visual Analytics para a intepretabilidade de modelos Random Forest, suportando explicações de modelos e de dados cobrindo propósitos preditivos e descritivos. Para explicações de modelos (preditivo), ExMatrix dispõe regras lógicas a formar representações visuais globais e locais, fornecendo visões gerais e análises de decisões. Explicações globais podem revelar o conhecimento aprendido pelo modelo a partir de um conjunto de dados rotulados, enquanto explicações locais focam na classificação de uma instância de dados em particular. Para explicações de dados (descritivo), VAX processa regras lógicas resultando na visualização de regras descritivas para insights automáticos dos dados. Explicações de dados permitem a identificação e a interpretação visual de padrões em conjuntos de dados multivariados. Qualquer problema representado por um conjunto de dados rotulados é um potencial caso de uso para os métodos propostos. O método ExMatrix foi aplicado em química analítica e o método VAX empregado em conjuntos de dados reais para análises de dados multivariados. A principal contribuição desta tese de doutorado reside em métodos de Visual Analytics suportando a interpretabilidade de Random Forest para propósitos preditivos e descritivos em explicações de modelo e de dados.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

MarioPopolinNeto_revisada.pdf (36.82 Mbytes)

Publishing Date

2022-03-03

Derived works

WARNING: Learn what derived works are clicking here.