Description

Dans un contexte écologique de changement climatique, un contexte géopolitique qui peut questionner à l'avenir notre approvisionnement en énergie, il est primordial de s'interroger sur l'utilisation de l'électricité des infrastructures de calcul ainsi que de l'emploi de ces infrastructures par les scientifiques.

Cet événement propose de rassembler utilisateurs et opérateurs de ces infrastructures afin de faire le point sur les actions menées dans les centres de calcul sur ces sujets et de discuter de ce que chaque utilisateur peut mettre en place dans ses campagnes de calculs. C'est pourquoi une large place sera laissée à la discussion lors d'une table ronde le matin. L'après midi sera dédiée à la présentation d'outils qui permettent, côté utilisateur, d'obtenir des mesures ce cet impact.

Vous êtes les bienvenues et bienvenus sur place, mais l'événement sera également retransmis en visio en direct. Inscrivez-vous !!

Intervenants

  • Michel Robert, CINES
  • Gabriel Hautreux, CINES
  • Bruno Bzeznik, Université Grenoble Alpes
  • Guillaume Raffin, Université Grenoble Alpes
  • Nicolas Renon, Calmip
  • Pierre-François Lavallée, IDRIS
  • Mahendra Paipuri, IDRIS
  • Simon Delamare, LIP, CNRS Lyon

Programme

jeudi 27/03

09:00 09:45 Pas de support disponible

Calculs, données, IA et transition écologique, enjeux : usages, impacts

Michel Robert

Le but de l’exposé est d’expliquer les enjeux du monde numérique (infrastructures de calcul, semiconducteurs, data centers, IA…), et ses impacts, de discerner les limites des technologies et des applications actuelles énergivores (bitcoin, LLM,…) ,de mettre en garde contre les dérives actuelles liées à nos usages, et d'ouvrir des perspectives pour un monde numérique plus sobre, plus responsable. Dans ce contexte et en se focalisant sur le périmètre des besoins et attentes en calcul intensif des communautés scientifiques, le cas des supercalculateurs et du CINES seront évoqués.
09:45 09:55 Pas de support disponible Pas de résumé disponible

Calmip (TBA)

Nicolas Renon

09:55 10:05 Pas de support disponible

GRICAD, une approche intégrée de l’économie d’énergie

Bruno Bzeznik

GRICAD est une UAR qui fourni des services de calcul et de stockage aux chercheurs du bassin Grenoblois. Elle héberge le mesocentre de calcul de l'Université Grenoble-Alpes (anciennement "CIMENT") Depuis le début des années 2000, l'énergie et les impacts environnementaux des infrastructures de calcul et de stockage intensifs sont pris en compte dans les préocupations des ingénieurs de CIMENT et de GRICAD. Cela donne aujourd'hui entre autres: des datacentres économes en énergie, des engagements organisationnels, de la fourniture de ressources adaptées aux usages, une sensibilisation à la sobriété, des tableaux de bord et une culture du capital humain.
10:05 10:15 Pas de support disponible Pas de résumé disponible

IDRIS (TBA)

Pierre-François Lavallée

10:15 10:25 Pas de support disponible Pas de résumé disponible

CINES (TBA)

Gabriel Hautreux

10:25 10:55 Pas de support disponible Pas de résumé disponible

Pause café

10:55 12:30 Pas de support disponible Pas de résumé disponible

Table ronde

Bruno Bzeznik, Gabriel Hauterux, Nicolas Renon, Pierre-François Lavallée

12:30 13:30 Pas de support disponible Pas de résumé disponible

Déjeuner

13:30 14:00 Pas de support disponible Pas de résumé disponible

Visite du CINES

14:00 14:45 Pas de support disponible

CEEMS: A Resource Manager Agnostic Application Energy & Performance Monitoring Stack

Mahendra Paipuri

With the rapid acceleration of ML/AI research in the last couple of years, the energy consumption of the Information and Communication Technology (ICT) domain has rapidly increased. As a major part of this energy consumption is due to users’ workloads, it is evident that users need to be aware of the energy footprint of their applications. Compute Energy & Emissions Monitoring Stack (CEEMS) [1] has been designed to address this issue. CEEMS can report energy consumption and equivalent emissions of user workloads in real time for SLURM (HPC) and Openstack (Cloud) platforms alike. Besides CPU energy usage, it supports reporting energy usage and performance metrics of workloads on NVIDIA and AMD GPU accelerators. It supports variety of energy sources like BMC (IPMI/Redfish), RAPL, Cray PMC, etc. In addition to energy consumption of individual workloads, CEEMS offers cluster level metrics for Data Center (DC) operators to monitor the overall energy consumption of the cluster, usage of cluster by individual users and projects, etc.

Although CEEMS has been developed with energy estimation of individual workloads as primary objective, it has been extended to report important performance metrics. It leverages the Linux perf subsystem and eBPF [2] to monitor the performance metrics of the applications which can help the end users to identify the bottlenecks in their workflows rapidly and consequently optimize them to reduce the energy and carbon footprint.

CEEMS has been built around the prominent open-source tools in the observability eco-system like Prometheus and Grafana. It has been designed to be extensible and it allows the DC operators to easily customize the energy estimation rules of user workloads based on the underlying hardware. CEEMS also integrates with Grafana Alloy and Pyroscope to be able to continuously profile the user workloads on SLURM and Kubernetes platforms which proved to be an effective solution in optimizing the workloads. Finally, the talk will conclude by showing a quick demonstration of CEEMS monitoring more than 2000 nodes on the Jean-Zay supercomputing platform that have a daily job churn rate of around 20k jobs.

[1]: https://github.com/mahendrapaipuri/ceems

[2]: https://ebpf.io/

14:45 15:30 Pas de support disponible

Monitoring énergétique dans l'infrastructure de recherche Slices-FR/Grid'5000 avec Kwollect

Simon Delamare

La plateforme Grid'5000, aujourd'hui devenue Slices-FR, est utilisée par la communauté de la recherche en informatique pour la réalisation d'expériences dans tous les domaines de l'informatique distribuée (HPC, réseau, etc.). Depuis de nombreuses années, certaines des ressources matérielles accessibles aux utilisateurs disposent de capteurs externes permettant de mesurer précisément la consommation des infrastructures informatiques et ainsi d'appuyer le travail de recherche autour de la thématique "Green IT", qui n'a fait que croître ces dernières années. La session présentera les dispositifs matériels disponibles dans Slices-FR/Grid'5000 pour le monitoring énergétique ainsi que le logiciel Kwollect, qui permet la mise à disposition des métriques de monitoring aux utilisateurs de la plateforme. Une démonstration de l'utilisation de ces outils, ainsi qu'une illustration des travaux menés sur Slices-FR/Grid'5000 avec ceux-ci, sera également proposée.
15:30 16:15 Pas de support disponible

Alumet : une approche ouverte et modulaire de la mesure distribuée

Guillaume Raffin

Alors que la consommation de ressources de l'informatique, et en particulier des datacentres, est de plus en plus discutée, l'industrie comme la recherche académique ont besoin d'outils pour mesurer leurs plateformes.

Le LIG et l'entreprise Bull s'associent pour créer Alumet (Adaptive, Lightweight, Unified Metrics). Contrairement aux autres outils qui sont développés dans le but de répondre à un cas d'utilisation bien précis, Alumet repart du problème de base et propose un framework de mesure modulaire et générique. L'outil de mesure final donne plus de contrôle à l'utilisateur/admin, tout en restant simple à utiliser. De plus, les choix techniques de l'implémentation (async Rust, serde-based protocol, ...) permettent d'être plus efficaces que les autres outils. L'idée est de créer un outil technique, certes puissant et efficace, mais qui reste ouvert, transparent, et contrôlable.

Cette session présentera le principe du projet Alumet, son architecture de base, quelques résultats expérimentaux et une rapide démonstration (selon le temps disponible). Elle sera l'occasion d'échanger autour du futur du projet et de la vision du monitoring dans les centres de calcul.

16:15 16:45 Pas de support disponible Pas de résumé disponible

Gestion/optimisation de l'énergie sur Adastra

Gabriel Hautreux

Organisation

  • Anne Cadiou
  • Matthieu Haefele