Nos journées - Atelier Dask

Description

Dask est une bibliothèque Python qui permet de traiter de grands volumes de données sur des architectures parallèles. Contrairement à d'autres bibliothèques Python comme Pandas, qui sont conçues pour fonctionner sur des données qui tiennent en mémoire vive, Dask est conçu pour fonctionner sur des ensembles de données beaucoup plus grands que l'on ne peut pas stocker dans la RAM d'un seul ordinateur.

Dask est conçu pour être facile à utiliser et à intégrer dans les workflows de traitement de données existants. Il fournit des structures de données familières comme les tableaux et les DataFrames, qui sont très similaires à ceux de Pandas, ainsi que des outils pour le calcul parallèle et distribué, ce qui permet d'accélérer considérablement le traitement de données.

Dask est souvent utilisé dans des domaines tels que la science des données, la finance, la biologie, l'analyse de données géospatiales, l'apprentissage automatique, etc. Il est également utilisé pour le traitement de données de simulation scientifique, la génération de modèles d'apprentissage automatique, et pour la manipulation et la transformation de données volumineuses stockées dans des systèmes de fichiers distribués comme Hadoop Distributed File System (HDFS) ou Amazon S3.

Cet atelier s'adresse à toutes les personnes connaissant le langage Python qui souhaitent découvrir Dask et apprendre à l'utiliser pour le traitement de données volumineuses sur des clusters de calcul.

Objectifs de la formation

Comprendre les concepts de base de Dask et sa philosophie de traitement parallèle de données

Maîtriser les fonctionnalités de Dask pour le traitement de données volumineuses, y compris la lecture et l'écriture de données, les opérations de transformation et les agrégations

Acquérir des compétences pour optimiser les performances de Dask sur des clusters de calcul

Découvrir des cas d'utilisation courants de Dask dans des projets de traitement de données

Contenu de la formation

La formation se déroule sur une journée complète, divisée en sessions théoriques et pratiques, ainsi qu'en temps pour des retours d'expérience.

Session 1 : Introduction à Dask

Présentation de Dask et ses avantages par rapport à d'autres outils de traitement de données

Concepts clés de Dask : grappes de calcul, tâches, graphes de tâches et planificateurs

Démonstration des fonctionnalités de Dask pour le traitement de données volumineuses

Chargement et enregistrement de données volumineuses avec Dask

Transformation de données avec Dask : filtrage, tri, jointure, etc.

Agrégation de données avec Dask

Optimisation des performances de Dask avec le partitionnement de données et le parallélisme

Session 2 : Retours d'expérience

Démonstration de l'utilisation de Dask pour le traitement de données volumineuses

Échange de bonnes pratiques et de conseils pour l'utilisation de Dask sur des clusters de calcul

Présentation de cas d'utilisation courants de Dask dans des projets de traitement de données

Les participants doivent disposer d'un ordinateur portable avec une connexion Internet pour les sessions pratiques. Des supports de cours et des exemples de code seront fournis aux participants sous forme de notebooks Jupyter. Un serveur Dask accessible vie une instance JupyterHub sera accessible pour les sessions pratiques

Lieu

GRICAD Grenoble

Programme

mercredi 27/09

09:00 09:30

Accueil des participants

09:30 12:00

Tutoriel Dask

Loic Estève

12:00 13:30

Pause déjeuner

13:30 15:30

Démo Drakkar

Aurélie Albert

https://github.com/auraoupa/drakkar-demo-notebooks/blob/master/Welcome.ipynb

15:30 15:50

Pause (sans café)

15:50 16:50

Deisa, Dask-Enabled in Situ Analytics: Analyze your MPI Simulation Outputs with Dask

Julien Bigot

Organisation

Aurélie Albert (LEGI Grenoble)

Cécile Cavet (Laboratoire Astroparticule & Cosmologie Paris)

Glenn Cougoulat (GRICAD Grenoble)

Loic Estève (INRIA Grenoble)

Julien Le Sommer (IGE Grenoble)

Pierre Navaro (IRMAR Rennes)