ANF "Réduction de la dimension dans la fouille de données massives : enjeux, méthodes et outils pour le calcul" 2017

Le groupe calcul organise une ANF sur « Réduction de la dimension dans la fouille de données massives : enjeux, méthodes et outils pour le calcul ».

Cette semaine se déroulera du lundi 24 (13h) au vendredi 28 avril (14h) sur l’ile d’Oléron, au village vacances CAES La Vieille Perrotine.

Cette ANF s’adresse aux chercheurs.ses, ingénieur.e.s et doctorant.e.s amené.e.s à réaliser du calcul scientifique sur des données massives.

Contexte scientifique et technologique :

Le calcul scientifique est de plus en plus confronté à l’analyse de volumes de données de grandes tailles, multidimensionnelles, qu’elles soient issues de simulations numériques relevant du calcul intensif ou produites par de grands équipements expérimentaux. La nature multidimensionnelle des données appelle cependant à renouveler les pratiques d’analyse, pour accompagner ce passage à l’échelle.
La semaine de formation vise à familiariser les participants avec les méthodes de réduction de la dimension (classiques comme ACP, AFC, MDS, …) ou issues du « machine learning » (kernel PCA, …). Cela revient souvent à aborder une question de calcul matriciel (recherche de valeurs propres, décomposition en valeurs singulières).
Les méthodes et outils pour ces méthodes matricielles seront présentées (cours et TP), afin de sensibiliser à la complexité cubique des algorithmes en fonction de la taille du jeu de données. Des algorithmes reposant sur une heuristique de projection dans un espace aléatoire de petite dimension seront présentés, qui permettent de réduire cette complexité, et réaliser ces calculs sur des matrices pleines de grande dimension.

Programme provisoire :

Lundi 24 avril, après-midi : Accueil et introduction

- Accueil : 15 mn 
- présentation des participants (et de leurs questions) : 30 x 4 mn = 2h
- pause
- Introduction à la réduction de dimension, et ses enjeux en données massives (AF) : 1h00
- Discussion générale : (ou par petits groupes thématiques) : 1h00
- Préparation de jeux de données (pour mardi après midi, sur PC)

Mardi 25 avril, matin : Réduction de la dimension

Matin : Cours : Les différentes façons de réduire la dimension ; formulation du problème « calculatoire » en question de calcul matriciel sur recherche de
vecteurs propres et valeurs propres de matrices construites à partir des données (diagonalisation, SVD) ; sensibilisation à la complexité cubique du prob
lème : AF

Après-midi :
- Présentation de Numpy, travail sur PC des participants avec Numpy et leurs données, en local ; PB
- présentation de deux jeux de données massives
métabarcoding : AF
turbulence : AC

Mercredi 26 avril : Calcul des vecteurs propres et valeurs propres

Matin : Cours : Méthodes numériques pour le calcul des valeurs propres des matrices symétriques : réduction, méthodes itératives ; méthodes numériques pou
r la décomposition en valeurs singulières ; Présentation des librairies. XV

Après-midi : TP
- Présentation des librairies de calcul des valeurs prorpes et SVD sur PlaFRim : XV & PB
applications à
métabarcoding (avec AF)
turbulence (avec AC)

Jeudi 27 avril : « Random projection »

Matin : cours
- « la malédiction de la dimension » : AF
- les méthodes de « projection aléatoire » pour les problèmes aux valeurs propres : PB

Après-midi : TP
- présentation des librairies et travail sur jeux de données massives : PB
métabarcoding (avec AF)
turbulence (avec AC)

Vendredi 28 avril

Matin :
- Finalisation et synthèse des TP : XV, PB
- Conclusions de la semaine, discussion générale, debriefing, évaluation : AC, VM & AF

Notes :

Intervenants :
PB Pierre Blanchard, INRIA HIEPACS & INRA, BioGeCo
AC Anne Cadiou, CNRS, LMFA
AF Alain Franc, INRIA Pleiade & INRA, BioGeCo
XV Xavier Vasseur, ISAE-SUPAERO

Modalités :

La formation est gratuite pour les personnels du CNRS, universitaires des UMR CNRS, personnels de l’INRA et de l’INSERM. Pour les autres personnels du monde académique (universitaires hors UMR CNRS, autres EPST/EPIC), nous contacter (anne.cadiou AT ec-lyon.fr).

Les stagiaires seront accueilis en pension complète au village vacances CAES La Vieille Perrotine. Un service de transport en car sera assuré depuis la gare la plus proche (détails à venir).
NB : les frais de transport (hors car) sont à la charge des stagiaires.

Inscription :

http://calcul.math.cnrs.fr/C3I/index.php?sid=74614&lang=en

Prérequis : connaissances de base en calcul matriciel, calcul de valeurs propres et vecteurs propres ; connaissance des langages python et C++

Contacts :


Accueil | Contact | Plan du site | | Statistiques du site | Visiteurs : 516 / 424989

Suivre la vie du site fr  Suivre la vie du site Présentation du Groupe Calcul  Suivre la vie du site Formations / Ecoles  Suivre la vie du site ANF "Réduction de la dimension dans la fouille de (...)   ?

Site réalisé avec SPIP 3.0.17 + AHUNTSIC

Creative Commons License