Suivez

la liste

La méthode du gradient stochastique est la technologie actuellement prédominante pour effectuer la phase d’entraînement des réseaux de neurones. Cette méthode exploite la structure spécifique de la fonction coût à minimiser dont on cherche le gradient. Par rapport à une méthode classique de descente, le calcul du vrai gradient est remplacé, en tant que moyenne sur le nombre de données, par un élément aléatoire de la somme, d’où la dénomination gradient stochastique. En présence de beaucoup de données, cette approximation audacieuse présente l’avantage de diminuer drastiquement le nombre d’évaluations de gradients élémentaires et d’alléger notablement le coût de chaque itération. En revanche, cette méthode présente plusieurs défauts, notamment les oscillations dues à la mauvaise qualité de l’approximation et la lenteur de convergence due à la prise en compte uniquement des dérivées premières de la fonction objectif.

L’objectif de cette thèse est de concevoir une approche à la fois : (i) plus robuste, en faisant appel aux méthodes fondamentales qui ont fait leur preuve en optimisation classique, i.e., en dehors du cadre de l’apprentissage ; et (ii) plus rapide, en adaptant les algorithmes aux architectures parallèles des ordinateurs. Nous nous intéressons plus particulièrement aux méthodes de second ordre qui sont connues pour leur stabilité et leur rapidité de convergence en nombre d’itérations. Le goulot d’étranglement de ces méthodes est dans le coût exorbitant d’une itération, qui requiert la résolution d’un système linéaire avec une matrice pleine. Pour cette partie nous allons travailler sur les différentes type d'approximations de la matrice hessienne (Fisher, Kronecker-Factorized Approximation of Curvature…) récemment découvertes et permettant d'exploiter pleinement les ressources parallèles.

L’application principale à IFPEN d’une telle avancée réside dans la segmentation des données 3-D en niveau de gris provenant de la tomographie électronique des catalyseurs d’alumine ou la classification des données mobilité. Pour ces applications, la phase d’apprentissage peut durer plusieurs jours voire semaines. Mais les résultats obtenus auront bien entendu une portée très générale et feront l’objet de publications dans des revues scientifiques ainsi que de communications dans des congrès internationaux.
Ce projet offre au candidat une occasion unique d'apprendre les techniques d’optimisations et de calcul parallèle, et la possibilité de rejoindre une communauté croissante de scientifiques travaillant en intelligence artificielle.