Description

Le calcul scientifique est de plus en plus confronté à l’analyse de volumes de données de grandes tailles, multidimensionnelles, qu’elles soient issues de simulations numériques relevant du calcul intensif ou produites par de grands équipements expérimentaux. La nature multidimensionnelle des données appelle cependant à renouveler les pratiques d'analyse, pour accompagner ce passage à l'échelle. La semaine de formation vise à familiariser les participants avec les méthodes de réduction de la dimension (classiques comme ACP, AFC, MDS, …) ou issues du « machine learning » (kernel PCA, …). Cela revient souvent à aborder une question de calcul matriciel (recherche de valeurs propres, décomposition en valeurs singulières). Les méthodes et outils pour ces méthodes matricielles seront présentées (cours et TP), afin de sensibiliser à la complexité cubique des algorithmes en fonction de la taille du jeu de données. Des algorithmes reposant sur une heuristique de projection dans un espace aléatoire de petite dimension seront présentés, qui permettent de réduire cette complexité, et réaliser ces calculs sur des matrices pleines de grande dimension.

Cette ANF s'adresse aux chercheurs.ses, ingénieur.e.s et doctorant.e.s amené.e.s à réaliser du calcul scientifique sur des données massives.

Lieu

Village vacances CAES La Vieille Perrotine sur l'île d'Oléron.

Photo aérienne du village vacances

Modalités

La formation est gratuite pour les personnels du CNRS, universitaires des UMR CNRS, personnels de l'INRA et de l'INSERM. Pour les autres personnels du monde académique (universitaires hors UMR CNRS, autres EPST/EPIC), nous contacter (anne.cadiou AT ec-lyon.fr).

Les stagiaires seront accueilis en pension complète au village vacances CAES La Vieille Perrotine. Un service de transport en car sera assuré le lundi 25 septembre entre la gare routière de La Rochelle et Saint Pierre d'Oléron. Départ à 13h de la gare. Retour à 13h30 à destination de la gare de la Rochelle le vendredi 29 septembre (départ de Saint Pierre d'Oléron à 12h). Merci de nous confirmer par email que vous souhaitez prendre cette navette.

NB : les frais de transport (hors car) sont à la charge des stagiaires.

Prérequis : connaissances de base en calcul matriciel, calcul de valeurs propres et vecteurs propres; connaissance des langages python et C++

Programme

lundi 25/09

14:00 16:00 Pas de support disponible

Accueil et introduction

  • accueil
  • présentation des participants (et de leurs questions) : 30 x 4 mn = 2h
16:15 17:00 Télécharger le support Pas de résumé disponible

Introduction à la réduction de dimension, et ses enjeux en données massives

Alain Franc

17:00 17:30 Pas de support disponible

Préparation de jeux de données

pour mardi après midi, sur ordinateur

mardi 26/09

09:00 12:00

Réduction de la dimension dans les dynamiques spatio-temporelles (cours)

Laurent Cordier et Alain Franc

Télécharger le support réduire la dimension
Télécharger le support réduction de dimension des dynamiques spatio-temporelles
Télécharger le support POD
Télécharger le support DMD
  • Les différentes façons de réduire la dimension
  • formulation du problème « calculatoire » en question de calcul matriciel sur recherche de vecteurs propres et valeurs propres de matrices construites à partir des données (diagonalisation, SVD)
  • sensibilisation à la complexité cubique du problème (Alain Franc et Laurent Cordier)
14:00 18:00

Réduction de la dimension dans les dynamiques spatio-temporelles (TP)

Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc

Télécharger le support réduire la dimension
Télécharger le support réduction de dimension des dynamiques spatio-temporelles
Télécharger le support POD
Télécharger le support DMD
  • Présentation de Numpy, travail sur PC des participants avec Numpy et leurs données, en local (Pierre Blanchard)

  • Présentation de quelques commandes utiles pour la parallélisation

  • Présentation de deux jeux de données massives :

    • métabarcoding : Alain Franc et Pierre Blanchard
    • mécanique des fluides - turbulence : Laurent Cordier et Anne Cadiou

mercredi 27/09

09:00 12:00 Télécharger le support

Mise en oeuvre des méthodes numériques (cours)

Xavier Vasseur

  • Méthodes numériques pour le calcul des valeurs propres des matrices symétriques
  • le ploint clé est le calcul matriciel dense : réduction, méthodes itératives
  • méthodes numériques pour la décomposition en valeurs singulières
12:00 18:00 Pas de support disponible

Mise en oeuvre des méthodes numériques (TP)

Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc

application à :

  • métabarcoding (avec Alain Franc et Pierre Blanchard)
  • mécanique des fluides - turbulence (avec Laurent Cordier et Anne Cadiou)

jeudi 28/09

09:00 12:00 Télécharger le support

Projection aléatoires ou sélection de colonnes (cours)

Pierre Blanchard et Alain Franc

  • la malédiction de la dimension (Alain Franc)
  • les méthodes de « projection aléatoire » pour les problèmes aux valeurs propres (Pierre Blanchard)
14:00 18:00 Pas de support disponible

Projection aléatoires ou sélection de colonnes (TP)

Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc

  • présentation des librairies et travail sur jeux de données massives (Pierre Blanchard)
  • métabarcoding (Alain Franc et Pierre Blanchard)
  • mécanique des fluides - turbulence (Laurent Cordier et Anne Cadiou)

vendredi 29/09

09:00 11:00 Pas de support disponible Pas de résumé disponible

Finalisation et synthèse des TP

11:00 12:00 Pas de support disponible

Conclusion de la semaine

Anne Cadiou, Alain Franc et Vincent Miele

  • discussion générale, debriefing, évaluation (Anne Cadiou, Vincent Miele et Alain Franc)