Le calcul scientifique est de plus en plus confronté à l’analyse de volumes de données de grandes tailles, multidimensionnelles, qu’elles soient issues de simulations numériques relevant du calcul intensif ou produites par de grands équipements expérimentaux. La nature multidimensionnelle des données appelle cependant à renouveler les pratiques d'analyse, pour accompagner ce passage à l'échelle. La semaine de formation vise à familiariser les participants avec les méthodes de réduction de la dimension (classiques comme ACP, AFC, MDS, …) ou issues du « machine learning » (kernel PCA, …). Cela revient souvent à aborder une question de calcul matriciel (recherche de valeurs propres, décomposition en valeurs singulières). Les méthodes et outils pour ces méthodes matricielles seront présentées (cours et TP), afin de sensibiliser à la complexité cubique des algorithmes en fonction de la taille du jeu de données. Des algorithmes reposant sur une heuristique de projection dans un espace aléatoire de petite dimension seront présentés, qui permettent de réduire cette complexité, et réaliser ces calculs sur des matrices pleines de grande dimension.
Cette ANF s'adresse aux chercheurs.ses, ingénieur.e.s et doctorant.e.s amené.e.s à réaliser du calcul scientifique sur des données massives.
Lieu
Village vacances CAES La Vieille Perrotine sur l'île d'Oléron.
La formation est gratuite pour les personnels du CNRS, universitaires des UMR CNRS, personnels de l'INRA et de l'INSERM. Pour les autres personnels du monde académique (universitaires hors UMR CNRS, autres EPST/EPIC), nous contacter (anne.cadiou AT ec-lyon.fr).
Les stagiaires seront accueilis en pension complète au village vacances CAES La Vieille Perrotine. Un service de transport en car sera assuré le lundi 25 septembre entre la gare routière de La Rochelle et Saint Pierre d'Oléron. Départ à 13h de la gare. Retour à 13h30 à destination de la gare de la Rochelle le vendredi 29 septembre (départ de Saint Pierre d'Oléron à 12h). Merci de nous confirmer par email que vous souhaitez prendre cette navette.
NB : les frais de transport (hors car) sont à la charge des stagiaires.
Prérequis : connaissances de base en calcul matriciel, calcul de valeurs propres et vecteurs propres; connaissance des langages python et C++
- accueil
- présentation des participants (et de leurs questions) : 30 x 4 mn = 2h
pour mardi après midi, sur ordinateurRéduction de la dimension dans les dynamiques spatio-temporelles (cours)
Laurent Cordier et Alain Franc
- Les différentes façons de réduire la dimension
- formulation du problème « calculatoire » en question de calcul matriciel sur recherche de vecteurs propres et valeurs propres de matrices construites à partir des données (diagonalisation, SVD)
- sensibilisation à la complexité cubique du problème (Alain Franc et Laurent Cordier)
Réduction de la dimension dans les dynamiques spatio-temporelles (TP)
Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc
Présentation de Numpy, travail sur PC des participants avec Numpy et leurs données, en local (Pierre Blanchard)
Présentation de quelques commandes utiles pour la parallélisation
Présentation de deux jeux de données massives :
- métabarcoding : Alain Franc et Pierre Blanchard
- mécanique des fluides - turbulence : Laurent Cordier et Anne Cadiou
- Méthodes numériques pour le calcul des valeurs propres des matrices symétriques
- le ploint clé est le calcul matriciel dense : réduction, méthodes itératives
- méthodes numériques pour la décomposition en valeurs singulières
Mise en oeuvre des méthodes numériques (TP)
Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc
application à :
- métabarcoding (avec Alain Franc et Pierre Blanchard)
- mécanique des fluides - turbulence (avec Laurent Cordier et Anne Cadiou)
Projection aléatoires ou sélection de colonnes (cours)
Pierre Blanchard et Alain Franc
- la malédiction de la dimension (Alain Franc)
- les méthodes de « projection aléatoire » pour les problèmes aux valeurs propres (Pierre Blanchard)
Projection aléatoires ou sélection de colonnes (TP)
Pierre Blanchard, Anne Cadiou, Laurent Cordier et Alain Franc
- présentation des librairies et travail sur jeux de données massives (Pierre Blanchard)
- métabarcoding (Alain Franc et Pierre Blanchard)
- mécanique des fluides - turbulence (Laurent Cordier et Anne Cadiou)