Frameworks for interpretability of deep learning-based prognostics and health management

Figueroa Barraza, Joaquín Eduardo

doi:10.11606/T.3.2022.tde-22052023-151410

Home

Facilities

Doctoral Thesis

DOI

https://doi.org/10.11606/T.3.2022.tde-22052023-151410

Document

Doctoral Thesis

Author

Figueroa Barraza, Joaquín Eduardo (Catálogo USP)

Full name

Joaquín Eduardo Figueroa Barraza

E-mail

Institute/School/College

Escola Politécnica

Knowledge Area

Naval and Oceanic Engineering

Date of Defense

2022-12-13

Published

São Paulo, 2022

Supervisor

Martins, Marcelo Ramos (Catálogo USP)

Committee

Martins, Marcelo Ramos (President)
Cozman, Fabio Gagliardi
Dorn, Márcio
Droguett, Enrique Andrés López
Moura, Márcio José das Chagas

Title in English

Frameworks for interpretability of deep learning-based prognostics and health management

Keywords in English

Interpretability
Neural networks

Abstract in English

In the last five years, the use of deep learning algorithms for prognostics and health management (PHM) has led to a performance increase in fault diagnostics, prognostics, and anomaly detection. However, the lack of explanation and interpretability of these models results in a resistance towards their credibility and deployment. This means that even though deep learning-based models may achieve great performance, the understanding and explanation of how a deep learning-based PHM model obtains its results is still an open area of research. In this thesis, three techniques for interpretability of deep learning models in the context of prognostics and health management are proposed. The first one is comprised of a technique for feature selection and a methodology for quantitative evaluation of the techniques performance and comparison with other techniques. The proposed technique consists of a hidden layer next to the input layer whose weights determine the importance of each feature within the model. These weights are trained jointly with the rest of the network. The layer is referred to as feature selection (FS) layer. Moreover, the methodology for evaluation proposes the use of a novel metric referred to as ranking quality score (RQS). For the second framework, a multi-task neural network, referred to as Sparse Counterfactual Generation Neural Network (SCF-Net), is proposed for simultaneous fault diagnosis and counterfactual generation. Thus, the network has the ability to diagnose health states and deliver information referring to the minimal changes in the input values that lead to a change in the predicted health state by the model. In the third framework, the two previous approaches are combined in a network architecture referred to as Feature Selection and Sparse Counterfactual Generation network (FS-SCF). Also, a methodology is proposed for calculation of causality-based values for each feature, such as necessity, sufficiency, (necessity or sufficiency) and (necessity and sufficiency). This is used to further analyze the model and to interpret the results obtained from the FS layer. For these three frameworks, several case studies are used for testing, and compared to other existing techniques. Results across the three frameworks show a successful increase in interpretability while keeping task performance at the same level. Thus, the accuracy/interpretability tradeoff is successfully addressed in this thesis. Future lines of research include testing in other kinds of neural networks, such as convolutional neural networks, recurrent neural networks, and transformers. In the case of counterfactual-based approaches, future works include their adaption for regression tasks, due to the fact that they are limited to classification. This could increase the types of applications in PHM. For example, remaining useful life (RUL) prediction.

Title in Portuguese

Frameworks para interpretabilidade de prognóstico e gestão da saúde baseados em aprendizagem profunda.

Keywords in Portuguese

Contrafactual
Interpretabilidade
Prognóstico e gestão da saúde
Redes neurais
Seleção de variáveis

Abstract in Portuguese

Nos últimos cinco anos, o uso de algoritmos de aprendizagem profunda para prognóstico e gestão de saúde (PHM) levou a um aumento de desempenho em diagnóstico de falhas, prognóstico e detecção de anomalias. No entanto, a falta de explicação e interpretabilidade desses modelos resulta em uma baixa credibilidade e uma resistência para sua implementação em aplicações da indústria. Isso significa que, embora os modelos baseados em aprendizagem profunda possam alcançar um ótimo desempenho, a compreensão e explicação de como um modelo de PHM baseado em aprendizagem profunda obtém seus resultados ainda é uma área aberta de pesquisa. Nesta tese, são propostos três frameworks de interpretabilidade de modelos de aprendizagem profunda no contexto de prognóstico e gestão em saúde. O primeiro é composto por uma técnica de seleção de variáveis e uma metodologia para avaliação quantitativa do desempenho da técnica e comparação com outras técnicas. A técnica proposta consiste em uma camada oculta próxima à camada de entrada cujos pesos determinam a importância de cada recurso dentro do modelo. Esses pesos são treinados em conjunto com o restante da rede. A camada é chamada de feature selection layer (FS). Além disso, a metodologia de avaliação propõe o uso de uma nova métrica denominada ranking quality score (RQS). Para o segundo framework, uma rede neural multitarefa, denominada Sparse Counterfactual Generation Neural Network (SCF-Net), é proposta para diagnóstico de falhas e geração de counterfactuals simultaneamente. Assim, a rede tem a capacidade de diagnosticar estados de saúde e entregar informações referentes às mudanças mínimas nos valores de entrada que levam a uma mudança no estado de saúde previsto pelo modelo. No terceiro framework, as duas abordagens anteriores são combinadas em uma arquitetura de rede chamada de Feature Selection e Sparse Counterfactual Generation network (FS-SCF). Além disso, é proposta uma metodologia para cálculo de valores baseados em causalidade para cada variável, tais como necessidade, suficiência, (necessidade ou suficiência) e (necessidade e suficiência). Isto é usado para analisar melhor o modelo e interpretar os resultados obtidos da camada FS. Para esses três frameworks, vários estudos de caso são usados para teste e comparados com outras técnicas existentes. Os resultados nos três frameworks mostram um aumento bem-sucedido na interpretabilidade, mantendo o desempenho da tarefa no mesmo nível. Assim, o tradeoff entre a precisão e a interpretabilidade é abordado com sucesso nesta tese. As futuras linhas de pesquisa incluem testes em outros tipos de redes neurais, como redes neurais convolucionais, redes neurais recorrentes e redes transformers. No caso de abordagens baseadas em counterfactuals, trabalhos futuros incluem sua adaptação para tarefas de regressão, pelo fato de, por ora, estarem limitadas à classificação. Isso poderia aumentar os tipos de aplicativos em PHM, como por exemplo, para previsão de vida útil restante (RUL).

WARNING - Viewing this document is conditioned on your acceptance of the following terms of use:
This document is only for private use for research and teaching activities. Reproduction for commercial use is forbidden. This rights cover the whole data about this document as well as its contents. Any uses or copies of this document in whole or in part must include the author's name.

JoaquinEduardoFigueroaBarrazaCorr23.pdf (5.34 Mbytes)

Publishing Date

2023-05-24

Derived works

WARNING: Learn what derived works are clicking here.