Nous proposons une deuxième édition de l'ANF R pour le calcul, qui sera une formation sur l'utilisation du langage R sur les infrastructures de calcul. Celle-ci est portée conjointement avec le Réseau Interdisciplinaire autour de la Statistique.
Cette ANF aura lieu du lundi 23 septembre au vendredi 27 septembre à la Villa Clythia de Fréjus. Pour en savoir plus sur le lieu de la formation et comment s'y rendre, consultez le site du CAES.
Les frais d’hébergement en chambre individuelle ainsi que les frais pédagogiques sont pris en charge par le CNRS et l'INRAE. Les frais de transport des agents CNRS sont pris en charge par la délégation d’origine de l’agent à sa demande. Ils doivent faire une demande d'inscription à une formation sur la plateforme Ariane. Pour les non CNRS, les frais de transport doivent être pris en charge par votre organisme de tutelle ou laboratoire.
Cette formation s'adresse aux développeurs R non débutants et est ouverte aux personnels (statutaires, doctorant/e/s ou CDD):
- du CNRS
- universitaires des UMR CNRS
- de l'INRAE
- de l'INSERM (pour les autres EPIC, nous contacter)
Prérequis
Les sessions seront réalisées en français. Chaque participant/e devra disposer d'un ordinateur portable (de préférence sous Linux ou MacOSX), avec une version récente de R. Une infrastructure provisoire sera mise à disposition pour la formation par GRICAD l'infrastructure de calcul intensif et de données de Grenoble. Il faut être autonome en environnement Linux et savoir utiliser un terminal. Il faut également connaître quelques commandes git pour récupérer facilement les matériels pour les travaux pratiques.
Un nombre de places limité
La formation pourra accueillir 25 participants. Les personnels CNRS et INRAE seront prioritaires pour suivre la formation donc les organisateurs se laissent la possibilité d'opérer une sélection en fonction des renseignements portés sur la fiche d’inscription.
Date limite de pré-inscription : 31/05/2024
Une réponse définitive vous parviendra après cette date. Votre inscription suppose que vous êtes pleinement disponibles durant la période de formation du 23 au 27 septembre inclus. Nous comptons sur votre bienveillance pour limiter au maximum les annulations tardives.
Setup et configuration
Aymeric Stamm, Daphné Giorgi, Florent Chuffart, Ghislain Durif, Pierre Navaro
- Introduction à Rcpp
- evalCpp et sourceCpp
- Integration dans un paquet
- Bibliothèques utiles en C++ d'algèbre linéaire
- OpenMP
- RcppParallel
- RcppThread
- OpenMP
- RcppParallel
- RcppThread
- Map-Reduce paradigms via parallel, doParallel and foreach packages;
- Map-Reduce paradigms via the futureverse;
- Parallel backends in the futureverse.
- Map-Reduce paradigms via parallel, doParallel and foreach packages;
- Map-Reduce paradigms via the futureverse;
- Parallel backends in the futureverse.
MPI "Message Passing Interface" est la bibliothèque la plus utilisée pour exploiter les machines massivement parallèles. MPI s'utilise depuis beaucoup de langages. Deux interfaces R existent qui s'appellent Rmpi et pbdMPI. Nous verrons comment faire les communications point à point et des communications collectives avec des exemples.
https://fisher.stats.uwo.ca/faculty/yu/Rmpi/
https://pbdr.org/documentation/pbdMPI/00_pbdMPI-package.html
La librairie rkeops (https://cran.r-project.org/web/packages/rkeops/index.html) permet de faire du calcul sur CPU ou GPU (de manière transparente) à base d'opération symbolique sur des matrices, soit en utilisant des opérations matricielles à la syntaxe similaire à du R base, soit en décrivant par une formule mathématique l'opération qu'on veut implémenter.La librairie rkeops (https://cran.r-project.org/web/packages/rkeops/index.html) permet de faire du calcul sur CPU ou GPU (de manière transparente) à base d'opération symbolique sur des matrices, soit en utilisant des opérations matricielles à la syntaxe similaire à du R base, soit en décrivant par une formule mathématique l'opération qu'on veut implémenter.Utilisation de Snakemake sur un cluster de calcul (présa+tuto)
Florent Chuffart
Le système de gestion de workflows Snakemake est un outil permettant de créer des analyses de données reproductibles et évolutives. Par défaut, Snakemake exécute les tâches sur la machine locale sur laquelle il est invoqué. Il peut également exécuter des tâches dans des environnements distribués tels que les clusters de calcul.
Le système de gestion de workflows Snakemake est un outil permettant de créer des analyses de données reproductibles et évolutives. Par défaut, Snakemake exécute les tâches sur la machine locale sur laquelle il est invoqué. Il peut également exécuter des tâches dans des environnements distribués tels que les clusters de calcul.
- Florent Chuffart - INSERM - Institut pour l’Avancée des Biosciences. - Grenoble.
- Ghislain Durif - CNRS - Laboratoire de Biologie et Modélisation de la Celule - Lyon.
- Daphné Giorgi - CNRS - Laboratoire de Probabilités Statistique et Modélisation - Paris.
- Pierre Navaro - CNRS - Institut de Recherche Mathématique - Rennes.
- Angèle Noguero - CNRS - Délégation régionale Occitanie Ouest - Toulouse.
- Aymeric Stamm - CNRS - Laboratoire de Mathématiques Jean Leray - Nantes.