• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Disertación de Maestría
DOI
https://doi.org/10.11606/D.55.2023.tde-15012024-160021
Documento
Autor
Nombre completo
Davi Keglevich Neiva
Dirección Electrónica
Instituto/Escuela/Facultad
Área de Conocimiento
Fecha de Defensa
Publicación
São Carlos, 2023
Director
Tribunal
Boas, Paulino Ribeiro Villas (Presidente)
Comin, Cesar Henrique
Izbicki, Rafael
Rodrigues, Francisco Aparecido
Título en portugués
Interpretação de modelos complexos de aprendizado de máquina
Palabras clave en portugués
Aprendizado de máquina
Interpretabilidade de modelos
Modelos complexos
Valores SHAP
Resumen en portugués
Algoritmos de aprendizado de máquina são amplamente utilizados em diversos setores da sociedade e desempenham um papel significativo na tomada de decisões em vários contextos. Esses algoritmos são capazes de criar modelos cada vez mais sofisticados, que conseguem capturar relações complexas nos dados para alcançar resultados mais acurados. No entanto, à medida que esses modelos desenvolvem relações mais complexas, a compreensão de seu funcionamento também se torna mais desafiadora. Esses modelos de aprendizado de máquina frequentemente incorporam centenas, ou até mesmo milhares, de variáveis. Neste trabalho, apresentamos alguns algoritmos de aprendizado de máquina, abordamos sua complexidade e discutimos a importância de compreender o funcionamento desses modelos complexos. Além disso, exploramos a metodologia SHAP para interpretar modelos de boosting (classificação e regressão) em 3 estudos de caso distintos: identificação dos perfis mais propensos a alcançarem uma nota mínima no ENEM - Exame Nacional do Ensino Médio; desenvolvimento de um score de risco de crédito de uma cooperativa de empresas e avaliação da concentração de carbono em amostras de solo de diferentes biomas brasileiros a partir de dados de espectroscopia. Com a utilização da metodologia SHAP foi possível trazer informações complementares às do modelo em cada um desses casos, revelando padrões de características socio econômicas dos candidatos do ENEM, características das empresas que o modelo aprendeu no desenvolvimento do score de crédito e informações relevantes sobre a composição dos solos. A interpretação dos modelos não apenas aprimora a análise dos conjuntos de dados, mas também possibilita a identificação de vieses amostrais, a avaliação do aprendizado obtido durante a construção dos modelos e, até mesmo, a revelação de informações que podem não ser prontamente discerníveis nos dados.
Título en inglés
Complex machine learning models interpretation
Palabras clave en inglés
Complex models
Machine learning
Model interpretability
SHAP values
Resumen en inglés
Machine learning algorithms are widely used in various sectors of society and play a significant role in decision-making in various contexts. These algorithms are capable of creating increasingly sophisticated models that can capture complex relationships in data to achieve more accurate results. However, as these models develop more complex relationships, understanding how they work also becomes more challenging. Machine learning models often incorporate hundreds, or even thousands, of variables. In this work, we present some machine learning algorithms, discuss their complexity, and emphasize the importance of understanding the functioning of these complex models. Furthermore, we explored the SHAP methodology to interpret boosting models (classification and regression) in three distinct case studies: identifying profiles most likely to achieve a minimum score on the ENEM - National High School Exam; developing a credit risk score for a cooperative of companies, and evaluating carbon concentration in soil samples from different Brazilian biomes using spectroscopy data. With the use of the SHAP methodology, it was possible to provide additional information to the model in each of these cases, revealing patterns of socioeconomic characteristics of ENEM candidates, characteristics of the companies that the model learned in the development of the credit score, and relevant information about soil composition. The interpretation of the models not only enhances the analysis of the datasets but also allows for the identification of sample biases, evaluation of the learning acquired during model construction, and even the revelation of information that may not be readily discernible in the data.
 
ADVERTENCIA - La consulta de este documento queda condicionada a la aceptación de las siguientes condiciones de uso:
Este documento es únicamente para usos privados enmarcados en actividades de investigación y docencia. No se autoriza su reproducción con finalidades de lucro. Esta reserva de derechos afecta tanto los datos del documento como a sus contenidos. En la utilización o cita de partes del documento es obligado indicar el nombre de la persona autora.
Fecha de Publicación
2024-01-15
 
ADVERTENCIA: Aprenda que son los trabajos derivados haciendo clic aquí.
Todos los derechos de la tesis/disertación pertenecen a los autores
CeTI-SC/STI
Biblioteca Digital de Tesis y Disertaciones de la USP. Copyright © 2001-2024. Todos los derechos reservados.