• JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
  • JoomlaWorks Simple Image Rotator
 
  Bookmark and Share
 
 
Thèse de Doctorat
DOI
https://doi.org/10.11606/T.43.2022.tde-17082022-084404
Document
Auteur
Nom complet
Rodrigo Soares Veiga
Adresse Mail
Unité de l'USP
Domain de Connaissance
Date de Soutenance
Editeur
São Paulo, 2022
Directeur
Jury
Vicente, Renato (Président)
Alfonso, Nestor Felipe Caticha
Fontanari, Jose Fernando
Izbicki, Rafael
Silva, Mauro Copelli Lopes da
Titre en anglais
Statistical physics analysis of machine learning models
Mots-clés en anglais
Bayesian inference
High-dimensional statistics
Machine learning
Neural networks
Statistical physics
Stochastic gradient descent
Resumé en anglais
This thesis presents three main contributions to the understanding of machine learning models by making use of statistical physics tools. First, we investigate the possible relation between the renormalisation group and restricted Boltzmann machines trained with two-dimensional ferromagnetic Ising data, pointing out possible misleadings in preliminary proposals to explicitly construct this bridge. Secondly, we examine the convergence behaviour of stochastic gradient descent in high-dimensional two-layer neural networks. By building up on classic statistical physics approaches and extending them to a broad range of learning rate, time scales, and hidden layer width, we construct a phase diagram describing the various learning scenarios arising in the high-dimensional setting. We also discuss the trade-off between learning rate and hidden layer width, which has been crucial in the recent mean-field theories. Thirdly, we study both Bayes-optimal and empirical risk minimization generalisation errors of the multi-class teacher-student perceptron. We characterise a first-order phase transition arising in the Bayes-optimal performance for Rademacher teacher weights and observe that, for Gaussian teachers, regularised cross-entropy minimisation can yield to close-to-optimal performance.
Titre en portugais
Análise de física estatística em modelos de aprendizado de máquina
Mots-clés en portugais
Aprendizado computacional
Inferência Bayesiana
Mecânica estatística
Métodos estatísticos para aprendizagem
Redes neurais
Resumé en portugais
Esta tese apresenta três contribuições principais para a compreensão de modelos de aprendizado de máquina por meio de ferramentas de física estatística. Primeiramente, investigamos a possível relação entre o grupo de renormalização e máquinas de Boltzmann restritas treinadas com dados amostrados do modelo de Ising ferromagnético bidimensional, apontando problemas em propostas preliminares para construir explicitamente essa ponte. Em segundo lugar, examinamos o comportamento da convergência do algoritmo de descida do gradiente estocástico em redes neurais de duas camadas no limite de alta dimensão. Com base nas abordagens clássicas da física estatística e estendendo-as para uma ampla faixa de taxa de aprendizado, escalas de tempo e tamanho da camada oculta, construímos um diagrama de fase descrevendo os vários cenários de aprendizado que surgem no limite de alta dimensionalidade. Também discutimos a relação entre a taxa de aprendizado e o tamanho da camada oculta, o que tem sido crucial nas recentes teorias de campo médio. Em terceiro lugar, estudamos os erros de generalização Bayes-ótimo e empírico do perceptron multi-classe no cenário professor-aluno. Caracterizamos uma transição de fase de primeira ordem na performance Bayes-ótimo para professores com acoplamentos Rademacher e observamos que, para professores com acoplamentos gaussianos, a minimização de entropia cruzada com regularização pode resultar em desempenho próximo ao Bayes-ótimo.
 
AVERTISSEMENT - Regarde ce document est soumise à votre acceptation des conditions d'utilisation suivantes:
Ce document est uniquement à des fins privées pour la recherche et l'enseignement. Reproduction à des fins commerciales est interdite. Cette droits couvrent l'ensemble des données sur ce document ainsi que son contenu. Toute utilisation ou de copie de ce document, en totalité ou en partie, doit inclure le nom de l'auteur.
Date de Publication
2022-10-18
 
AVERTISSEMENT: Apprenez ce que sont des œvres dérivées cliquant ici.
Tous droits de la thèse/dissertation appartiennent aux auteurs
CeTI-SC/STI
Bibliothèque Numérique de Thèses et Mémoires de l'USP. Copyright © 2001-2024. Tous droits réservés.