Interpretação de modelos complexos de aprendizado de máquina

Neiva, Davi Keglevich

doi:10.11606/D.55.2023.tde-15012024-160021

Accueil

Services

Mémoire de Maîtrise

DOI

https://doi.org/10.11606/D.55.2023.tde-15012024-160021

Document

Mémoire de Maîtrise

Auteur

Neiva, Davi Keglevich (Catálogo USP)

Nom complet

Davi Keglevich Neiva

Adresse Mail

Unité de l'USP

Instituto de Ciências Matemáticas e de Computação

Domain de Connaissance

Mathématiques, Statistiques et Informatique

Date de Soutenance

2023-11-21

Editeur

São Carlos, 2023

Directeur

Boas, Paulino Ribeiro Villas (Catálogo USP)

Jury

Boas, Paulino Ribeiro Villas (Président)
Comin, Cesar Henrique
Izbicki, Rafael
Rodrigues, Francisco Aparecido

Titre en portugais

Interpretação de modelos complexos de aprendizado de máquina

Mots-clés en portugais

Aprendizado de máquina
Interpretabilidade de modelos
Modelos complexos
Valores SHAP

Resumé en portugais

Algoritmos de aprendizado de máquina são amplamente utilizados em diversos setores da sociedade e desempenham um papel significativo na tomada de decisões em vários contextos. Esses algoritmos são capazes de criar modelos cada vez mais sofisticados, que conseguem capturar relações complexas nos dados para alcançar resultados mais acurados. No entanto, à medida que esses modelos desenvolvem relações mais complexas, a compreensão de seu funcionamento também se torna mais desafiadora. Esses modelos de aprendizado de máquina frequentemente incorporam centenas, ou até mesmo milhares, de variáveis. Neste trabalho, apresentamos alguns algoritmos de aprendizado de máquina, abordamos sua complexidade e discutimos a importância de compreender o funcionamento desses modelos complexos. Além disso, exploramos a metodologia SHAP para interpretar modelos de boosting (classificação e regressão) em 3 estudos de caso distintos: identificação dos perfis mais propensos a alcançarem uma nota mínima no ENEM - Exame Nacional do Ensino Médio; desenvolvimento de um score de risco de crédito de uma cooperativa de empresas e avaliação da concentração de carbono em amostras de solo de diferentes biomas brasileiros a partir de dados de espectroscopia. Com a utilização da metodologia SHAP foi possível trazer informações complementares às do modelo em cada um desses casos, revelando padrões de características socio econômicas dos candidatos do ENEM, características das empresas que o modelo aprendeu no desenvolvimento do score de crédito e informações relevantes sobre a composição dos solos. A interpretação dos modelos não apenas aprimora a análise dos conjuntos de dados, mas também possibilita a identificação de vieses amostrais, a avaliação do aprendizado obtido durante a construção dos modelos e, até mesmo, a revelação de informações que podem não ser prontamente discerníveis nos dados.

Titre en anglais

Complex machine learning models interpretation

Mots-clés en anglais

Complex models
Machine learning
Model interpretability
SHAP values

Resumé en anglais

Machine learning algorithms are widely used in various sectors of society and play a significant role in decision-making in various contexts. These algorithms are capable of creating increasingly sophisticated models that can capture complex relationships in data to achieve more accurate results. However, as these models develop more complex relationships, understanding how they work also becomes more challenging. Machine learning models often incorporate hundreds, or even thousands, of variables. In this work, we present some machine learning algorithms, discuss their complexity, and emphasize the importance of understanding the functioning of these complex models. Furthermore, we explored the SHAP methodology to interpret boosting models (classification and regression) in three distinct case studies: identifying profiles most likely to achieve a minimum score on the ENEM - National High School Exam; developing a credit risk score for a cooperative of companies, and evaluating carbon concentration in soil samples from different Brazilian biomes using spectroscopy data. With the use of the SHAP methodology, it was possible to provide additional information to the model in each of these cases, revealing patterns of socioeconomic characteristics of ENEM candidates, characteristics of the companies that the model learned in the development of the credit score, and relevant information about soil composition. The interpretation of the models not only enhances the analysis of the datasets but also allows for the identification of sample biases, evaluation of the learning acquired during model construction, and even the revelation of information that may not be readily discernible in the data.

AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.

DaviKeglevichNeiva_ME_revisada.pdf (1.15 Mbytes)

Date de Publication

2024-01-15

Œvres dérivées

AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.