Dask est une bibliothèque Python qui permet de traiter de grands volumes de données sur des architectures parallèles. Contrairement à d'autres bibliothèques Python comme Pandas, qui sont conçues pour fonctionner sur des données qui tiennent en mémoire vive, Dask est conçu pour fonctionner sur des ensembles de données beaucoup plus grands que l'on ne peut pas stocker dans la RAM d'un seul ordinateur.
Dask est conçu pour être facile à utiliser et à intégrer dans les workflows de traitement de données existants. Il fournit des structures de données familières comme les tableaux et les DataFrames, qui sont très similaires à ceux de Pandas, ainsi que des outils pour le calcul parallèle et distribué, ce qui permet d'accélérer considérablement le traitement de données.
Dask est souvent utilisé dans des domaines tels que la science des données, la finance, la biologie, l'analyse de données géospatiales, l'apprentissage automatique, etc. Il est également utilisé pour le traitement de données de simulation scientifique, la génération de modèles d'apprentissage automatique, et pour la manipulation et la transformation de données volumineuses stockées dans des systèmes de fichiers distribués comme Hadoop Distributed File System (HDFS) ou Amazon S3.
Cet atelier s'adresse à toutes les personnes connaissant le langage Python qui souhaitent découvrir Dask et apprendre à l'utiliser pour le traitement de données volumineuses sur des clusters de calcul.
- Comprendre les concepts de base de Dask et sa philosophie de traitement parallèle de données
- Maîtriser les fonctionnalités de Dask pour le traitement de données volumineuses, y compris la lecture et l'écriture de données, les opérations de transformation et les agrégations
- Acquérir des compétences pour optimiser les performances de Dask sur des clusters de calcul
- Découvrir des cas d'utilisation courants de Dask dans des projets de traitement de données
La formation se déroule sur une journée complète, divisée en sessions théoriques et pratiques, ainsi qu'en temps pour des retours d'expérience.
Session 1 : Introduction à Dask
- Présentation de Dask et ses avantages par rapport à d'autres outils de traitement de données
- Concepts clés de Dask : grappes de calcul, tâches, graphes de tâches et planificateurs
- Démonstration des fonctionnalités de Dask pour le traitement de données volumineuses
- Chargement et enregistrement de données volumineuses avec Dask
- Transformation de données avec Dask : filtrage, tri, jointure, etc.
- Agrégation de données avec Dask
- Optimisation des performances de Dask avec le partitionnement de données et le parallélisme
Session 2 : Retours d'expérience
- Démonstration de l'utilisation de Dask pour le traitement de données volumineuses
- Échange de bonnes pratiques et de conseils pour l'utilisation de Dask sur des clusters de calcul
- Présentation de cas d'utilisation courants de Dask dans des projets de traitement de données
Les participants doivent disposer d'un ordinateur portable avec une connexion Internet pour les sessions pratiques. Des supports de cours et des exemples de code seront fournis aux participants sous forme de notebooks Jupyter. Un serveur Dask accessible vie une instance JupyterHub sera accessible pour les sessions pratiques
Lieu
GRICAD Grenoble
Deisa, Dask-Enabled in Situ Analytics: Analyze your MPI Simulation Outputs with Dask
Julien Bigot
- Aurélie Albert (LEGI Grenoble)
- Cécile Cavet (Laboratoire Astroparticule & Cosmologie Paris)
- Glenn Cougoulat (GRICAD Grenoble)
- Loic Estève (INRIA Grenoble)
- Julien Le Sommer (IGE Grenoble)
- Pierre Navaro (IRMAR Rennes)