Guidelines for the Assessment of Black-box Interpretability Methods

Araujo, Gabriel Gazetta de

doi:10.11606/D.55.2022.tde-13102022-112418

Home

Facilities

Master's Dissertation

DOI

https://doi.org/10.11606/D.55.2022.tde-13102022-112418

Document

Master's Dissertation

Author

Araujo, Gabriel Gazetta de (Catálogo USP)

Full name

Gabriel Gazetta de Araujo

E-mail

Institute/School/College

Instituto de Ciências Matemáticas e de Computação

Knowledge Area

Computer Science and Computational Mathematics

Date of Defense

2022-08-08

Published

São Carlos, 2022

Supervisor

Nonato, Luis Gustavo (Catálogo USP)

Committee

Nonato, Luis Gustavo (President)
Comba, João Luiz Dihl
Medina, Jorge Luis Poco
Paiva Neto, Afonso

Title in English

Guidelines for the Assessment of Black-box Interpretability Methods

Keywords in English

Assessment
Black-box
Deep learning
Interpretability
Machine learning
Neural networks

Abstract in English

With the rise of deep learning and complex machine learning algorithms, higher performance has been sought to reach equally high accuracy in a variety of environments and applications. The search for high accuracy has led to complex predictive models known as black-boxes that do not offer access to their decision-making processes: these models provide little to no explanations on why a certain outcome has resulted or what influenced that outcome. Unfortunately, these drawbacks can be utterly significant especially with sensitive scenarios such as legal, social, medical or financial applications that a misclassified outcome or even an outcome classified for the wrong reason might cause tremendous impacts. Driven by this consternation, interpretability techniques have come into play in an effort to bring, through a variety of methods, explanations to the outcome of a black-box model or even the reasoning behind that model, or sometimes proposing an interpretable predicting algorithm altogether. However, these techniques are not well established yet, which means that they are in constant development; similarly, the assessment of these techniques is also lacking. Currently, there is not a consensus on how they can be evaluated or even what properties interpretability methods are supposed to meet. Driven by that gap, this work proposes a set of evaluation metrics that are capable of calculating three desired properties obtained from interpretability techniques. These metrics can be used to assess and determine the best parameters or the best interpretability technique for determined experiments.

Title in Portuguese

Diretrizes para avaliação de técnicas de Interpretabilidade de modelos Caixa-Preta

Keywords in Portuguese

Aprendizado de máquina
Aprendizado profundo
Avaliação
Interpretabilidade
Modelos caixa-preta
Redes neurais

Abstract in Portuguese

Com o surgimento de redes neurais profundas e algorítmos complexos de aprendizado de máquina, tem-se buscando cada vez mais maiores performances com o objetivo de alcançar melhores acurácias de classificação em uma variedade de aplicações. A busca por maior acurácia leva a modelos preditivos complexos conhecidos como caixas-pretas, que não oferecem acesso ao processo interno de decisão: estes modelos providenciam pouca ou nenhuma explicação no motivo pelo qual um determinado resultado foi obtido ou o que influenciou este resultado. Infelizmente, estas desvantagens podem ser impactantes especialmente em aplicações sensíveis como em cenários legais, sociais, médicos ou financeiros em que uma classificação errada ou uma classificação gerada por motivos errados pode causar impactos significativos. Motivados por esta preocupação, técnicas de interpretabilidade começam a surgir com o objetivo de trazer, por uma variedade de métodos, explicações para resultados de modelos caixa-preta, ou então propondo algorítmos preditivos originalmente interpretáveis. Porém, tais técnicas ainda não são maduras e estão em constante desenvolvimento; da mesma forma, a avaliação de tais técnicas também carecem de amadurecimento. Atualmente, não há um consenso em como elas podem ser avaliadas ou comparadas, ou então quais propriedades elas devem garantir. Este trabalho, partindo desta lacuna, propõe um conjunto de métricas avaliativas capazes de calcular três propriedades de técnicas de interpretabilidade. Tais métricas podem ser usadas para avaliar parâmetros ou determinar a melhor ferramenta de interpretabilidade para determinados experimentos.

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

GabrielGazettadeAraujo_revisada.pdf (1.26 Mbytes)

Publishing Date

2022-10-13

Derived works

WARNING: Learn what derived works are clicking here.