La part grandissante de l'informatique et de la simulation dans la plupart des champs disciplinaires conduit à la production de données en quantités de plus en plus importantes. C'est le cas par exemple en biologie avec le séquençage des différents génomes, en astronomie avec la multiplication des images transmises par les sondes ou les observatoires, en météorologie avec la simulation des phénomènes atmosphériques et leur visualisation, en sciences expérimentales avec l'accroissement de la taille et de la complexité des expériences, ou encore en mécanique des fluides avec des calculs de plus en plus gourmands en entrées/sorties. Par ailleurs, l’augmentation de la puissance des machines de calcul et la particularité de leur architecture massivement parallèle permettent aux chercheurs de progresser dans la complexité des simulations numériques qu'ils réalisent, par exemple en accroissant la taille des domaines géométriques utilisés pour modéliser les problèmes. Si cette augmentation est plutôt bien maîtrisée au niveau calculatoire, il n'en va pas de même pour la gestion des entrées et sorties des codes de calcul, ce qui pose des problèmes par exemple en vue de leur couplage ou plus simplement de l'exploitation des résultats. Le volume de données ne doit pas devenir un facteur bloquant. Ainsi l'objectif de cette formation est d'approfondir les techniques relatives à ces grandes masses de données : structuration des fichiers et des données, entrées/sorties adaptées , visualisation. Pour cela, la formation dressera un panel des méthodes, formats et outils existants ... afin de permettre aux participants de choisir les éléments les plus adaptés à leur pratique quotidienne.
Cette formation propose une approche à la fois théorique et pratique, afin que les participants soient rapidement opérationnels sur les techniques étudiées dès leur retour dans leur laboratoire.
Les objectifs principaux de cette formation sont d'apporter aux stagiaires les bases théoriques et pratiques liées de façon générale aux entrées/sorties des codes de calcul.
Différents points seront abordés :
- Problématique générale des entrées/sorties séquentielles et parallèles
- Format de fichier HDF5, NetCDF
- Routines d'E/S parallèles dans les codes scientifiques :MPIIO …
- Visualisation a posteriori
- Visualisation in situ
Les pré-requis pour cette formation sont :
- expérience en développement de code de calcul.
Cette formation prendra la forme de cours théoriques qui seront complétés par des parties pratiques.
Ce cours permet de poser les bases et le vocabulaire commun dans le domaine du post-traitement. Il aborde en particulier HDF5. Ce premier TP d'introduction sur Hdf5 permet d'utiliser l'API en C ou Fortran, selon vos pratiques.Au délà des seules notions d'I/O, il existe de nombreux standards et mécanismes permettant de décrire les données scientifiques. Ce cours dresse un panorama de quelques outils et formats. Il est complété par un TP utilisant les fonctionnalités avancées de Hdf5.La suite la formation s'appuie sur le parallélisme, ces rappels permettent de donner à tous les bases sur la principale API utilisée pour mettre en oeuvre le parallélisme dans les applicaitons scientifiques.
Systemes de fichiers paralleles (principes, fs existants, quelques resultats...)
Que faire de ses données une fois la simulation passée ? Comment réaliser des diagnostics ? Le cours dressera un panorama des outils utilisés suivant les disciplines (Matlab, IDL, Matplotlib, Yorick, ...)La visualisation et vous Sous la forme de démonstrations, chaque participant présente ses pratiques actuelles de visuLes principes de la visualisation, à travers l'API VTK, les principes du pipeline de visualisation sont étudiés. En particulier, les goulets d'étranglement liés au traitement de données volumineuses seront mis en évidence.Ce cours dresse un panorama des outils de visualisation disponibles, en particulier Visit. Visit est un des logiciels phares de visualisation scientifique du domaine public.Soirée Méthodes de visualisation à distance (de type Remote Frame Buffer) Dans un cadre général, comment déporter de manière performante une session graphique ?Le couplage avec Visit permet de mettre a disposition de la simulation, une librairie complete d'algorithmes de visualisation, avec une interface directe avec les données en mémoire pendant l'exécution de la simulation et de manière complétement indépendente des formats de fichiers.