ANF "Réduction de la dimension dans la fouille de données massives : enjeux, méthodes et outils pour le calcul" 2017

Le groupe calcul organise une ANF sur « Réduction de la dimension dans la fouille de données massives : enjeux, méthodes et outils pour le calcul ».

Cette semaine se déroulera du lundi 25 (13h) au vendredi 29 septembre (14h) sur l’ile d’Oléron, au village vacances CAES La Vieille Perrotine.

Cette ANF s’adresse aux chercheurs.ses, ingénieur.e.s et doctorant.e.s amené.e.s à réaliser du calcul scientifique sur des données massives.

Contexte scientifique et technologique :

Le calcul scientifique est de plus en plus confronté à l’analyse de volumes de données de grandes tailles, multidimensionnelles, qu’elles soient issues de simulations numériques relevant du calcul intensif ou produites par de grands équipements expérimentaux. La nature multidimensionnelle des données appelle cependant à renouveler les pratiques d’analyse, pour accompagner ce passage à l’échelle.
La semaine de formation vise à familiariser les participants avec les méthodes de réduction de la dimension (classiques comme ACP, AFC, MDS, …) ou issues du « machine learning » (kernel PCA, …). Cela revient souvent à aborder une question de calcul matriciel (recherche de valeurs propres, décomposition en valeurs singulières).
Les méthodes et outils pour ces méthodes matricielles seront présentées (cours et TP), afin de sensibiliser à la complexité cubique des algorithmes en fonction de la taille du jeu de données. Des algorithmes reposant sur une heuristique de projection dans un espace aléatoire de petite dimension seront présentés, qui permettent de réduire cette complexité, et réaliser ces calculs sur des matrices pleines de grande dimension.

Programme provisoire :

Lundi 25 septembre, après-midi : Accueil et introduction

- Accueil : 15 mn 
- présentation des participants (et de leurs questions) : 30 x 4 mn = 2h
- pause
- Introduction à la réduction de dimension, et ses enjeux en données massives (Alain Franc) : 1h00
- Discussion générale : (ou par petits groupes thématiques) : 1h00
- Préparation de jeux de données (pour mardi après midi, sur ordinateur)

Mardi 26 septembre : Réduction de la dimension dans les dynamiques spatio-temporelles

Matin : Cours : Les différentes façons de réduire la dimension ; formulation du problème « calculatoire » en question de calcul matriciel sur recherche de
vecteurs propres et valeurs propres de matrices construites à partir des données (diagonalisation, SVD) ; réduction de dimension des dynamiques spatio-temporelles ; sensibilisation à la complexité cubique du problème : Alain Franc et Laurent Cordier

Après-midi :
- Présentation de Numpy, travail sur PC des participants avec Numpy et leurs données, en local ; Pierre Blanchard
- Présentation de quelques commandes utiles pour la parallélisation
- présentation de deux jeux de données massives
métabarcoding : Alain Franc et Pierre Blanchard
mécanique des fluides - turbulence : Laurent Cordier et Anne Cadiou

Mercredi 27 septembre : Mise en oeuvre des méthodes numériques

Matin : Cours : Méthodes numériques pour le calcul des valeurs propres des matrices symétriques ; le ploint clé est le calcul matriciel dense : réduction, méthodes itératives ; méthodes numériques pour la décomposition en valeurs singulières ; Présentation des librairies. état de l’art (quelques standards, domaine en évolution), Xavier Vasseur

Après-midi : TP
- Présentation des librairies de calcul des valeurs prorpes et SVD : travail avec la bibliothèque ARPACK basée sur la méthode d’Arnoldi ; développements vers la parallélisation : Xavier Vasseur et Pierre Blanchard
applications à
métabarcoding (avec Alain Franc et Pierre Blanchard)
mécanique des fluides - turbulence (avec Laurent Cordier et Anne Cadiou)

Jeudi 28 septembre : Projection aléatoires ou sélection de colonnes

Matin : cours
- « la malédiction de la dimension » : Alain Franc
- les méthodes de « projection aléatoire » pour les problèmes aux valeurs propres : Pierre Blanchard

Après-midi : TP
- présentation des librairies et travail sur jeux de données massives : Pierre Blanchard
métabarcoding (avec Alain Franc et Pierre Blanchard)
mécanique des fluides - turbulence (avec Laurent Cordier et Anne Cadiou)

Vendredi 29 septembre, matin

- Finalisation et synthèse des TP
- Conclusions de la semaine, discussion générale, debriefing, évaluation : Anne Cadiou, Vincent Miele et Alain Franc

Notes :

Intervenants :
Pierre Blanchard, INRIA HIEPACS & INRA, BioGeCo
Anne Cadiou, CNRS, LMFA
Laurent Cordier, CNRS, Intitut PPrime
Alain Franc, INRIA Pleiade & INRA, BioGeCo
Xavier Vasseur, ISAE-SUPAERO

Modalités :

La formation est gratuite pour les personnels du CNRS, universitaires des UMR CNRS, personnels de l’INRA et de l’INSERM. Pour les autres personnels du monde académique (universitaires hors UMR CNRS, autres EPST/EPIC), nous contacter (anne.cadiou AT ec-lyon.fr).

Les stagiaires seront accueilis en pension complète au village vacances CAES La Vieille Perrotine. Un service de transport en car sera assuré depuis la gare la plus proche (détails à venir).
NB : les frais de transport (hors car) sont à la charge des stagiaires.

Inscription :

http://calcul.math.cnrs.fr/C3I/index.php?sid=74614&lang=en

Prérequis : connaissances de base en calcul matriciel, calcul de valeurs propres et vecteurs propres ; connaissance des langages python et C++

Contacts :


Accueil | Contact | Plan du site | | Statistiques du site | Visiteurs : 864 / 432089

Suivre la vie du site fr  Suivre la vie du site Présentation du Groupe Calcul  Suivre la vie du site Formations / Ecoles  Suivre la vie du site ANF "Réduction de la dimension dans la fouille de (...)   ?

Site réalisé avec SPIP 3.0.17 + AHUNTSIC

Creative Commons License