📱 EcoLogits is joining CodeCarbon non-profit
GenAI Impact, le making of

GenAI Impact, le making of

Table des matiĂšres

L’impact planĂ©taire de l’utilisation de l’Intelligence Artificielle gĂ©nĂ©rative reste une zone d’ombre considĂ©rable, malgrĂ© – ou peut-ĂȘtre Ă  cause de – l’incroyable rapiditĂ© de son adoption par le grand public. Pour y remĂ©dier, une centaine de bĂ©nĂ©voles de l’ONG Data For Good for se sont rassemblĂ©s sous la banniĂšre “GenAI Impact”. DĂ©couvrons comment !

Que sait-on aujourd’hui de l’impact du numĂ©rique ? Il reprĂ©sente 4 % des Ă©missions mondiales (2,5 % en France, en raison de son Ă©nergie peu carbonĂ©e), plus que l’aviation civile, et est en augmentation rapide : +60 % d’ici 2040 si rien ne change (source: ADEME/Arcep ).

Mais tous ces calculs datent d’avant l’évĂ©nement tech qui aura tout changĂ©, fin 2022 : l’arrivĂ©e de ChatGPT. L’application phare d’OpenAI a basculĂ© l’humanitĂ© dans l’ùre de l’IA gĂ©nĂ©rative (GenAI) suite Ă  son adoption par des centaines de millions d’utilisateurs en un temps record. Mais quel est le retour de bĂąton ?

Alors que ce revers existe bel et bien. Nous savons, par exemple, que les processeurs GPU utilisĂ©s pour les calculs de l’IA gĂ©nĂ©rative, ou GenAI peuvent consommer entre trois et cinq fois que des processeurs CPU capables de faire certaines des mĂȘmes tĂąches (source: Ampere Computing ). Et que ces mĂȘmes GPUs chauffent 2.5 fois plus que des CPUs comparables (source: donnĂ©es fabricants). C’est donc un double effet kiss cool qui suggĂšre un impact bien plus important que celui des systĂšmes IT pre-GenAI.

Autre arbre qui cache la forĂȘt : dans les dĂ©bats publics, on ne parle que de l’impact de l’entraĂźnement des modĂšles de GenAI. À tel point que des dĂ©cideurs, dont une ancienne SecrĂ©taire d’Etat chargĂ©e du numĂ©rique, dĂ©clarent publiquement que les modĂšles de GenAI gĂ©nĂšrent le plus d’émissions au moment de leur formation.

Or c’est faux. LĂ  oĂč les Ă©tudes disponibles ne regardaient que l’entraĂźnement des modĂšles, le livre blanc de Data for Good “Les Grands dĂ©fis de l’IA gĂ©nĂ©rative ” dĂ©montre que l’infĂ©rence d’un modĂšle GenAI, c’est-Ă -dire son utilisation, peut gĂ©nĂ©rer plus de 200 fois plus d’émissions par an que l’étape de son entraĂźnement. Surtout s’il s’agit d’un modĂšle aussi largement utilisĂ© que GPT 3.5, le modĂšle derriĂšre ChatGPT.

Dans ce contexte, naĂźt le projet “GenAI Impact ”, extension des travaux du livre blanc. Samuel RincĂ© , co-auteur et Lead AI Engineer chez Alygne, mĂšne le projet avec le soutien de plusieurs dizaines de bĂ©nĂ©voles de Data For Good. L’objectif ? Explorer les implications complĂštes de l’IA gĂ©nĂ©rative, y compris ses effets rebond sur la sociĂ©tĂ©, comme l’augmentation de la production de logiciels et de la consommation associĂ©e : “Copilot est de plus en plus utilisĂ©, ce qui booste les performances du dĂ©veloppeur : on produit plus de code, et plus de software qu’avant ; or le software a un impact. On fait de l’efficience partout, donc on produit plus, on consomme plus, partout.”

Comment le projet arrive-t-il Ă  Ă©valuer l’impact de la GenAI, concrĂštement parlant, et ensuite Ă  les rĂ©duire ? Cela passe par deux chantiers.

D’abord, la partie ModĂ©lisation vise Ă  rĂ©pondre Ă  la question “comment Ă©valuer les impacts directs de l’infĂ©rence des modĂšles GenAI ?”

Pour ce faire, l’équipe du projet s’appuiera sur des donnĂ©es ouvertes disponibles Ă  propos d’un certain nombre de modĂšles, via les outils LLM-Perf Leaderboard (Hugging Face) et ML.energy . Ensuite, un benchmark par requĂȘte permettra d’estimer la consommation Ă©nergĂ©tique et les impacts des modĂšles. Ainsi, “si je fais une demande Ă  un modĂšle de langage et qu’il gĂ©nĂšre un texte d’une certaine longueur, c’est-Ă -dire un nombre de tokens, je peux estimer combien d’Ă©nergie le Large Langage Model (LLM) a consommĂ©”,” explique Samuel RincĂ©. DonnĂ©es qui sont ensuite vĂ©rifiĂ©es par une phase de peer review.

La partie ModĂ©lisation ira plus loin que les Ă©tudes existantes en regardant des modĂšles GenAI “Sparse Mixture of Experts”, comme Mixtral de Mistral AI, qui vont en gĂ©nĂ©ral jusqu’à 70 milliards de paramĂštres, ainsi que des modĂšles plus gros, comme Command R+ de Cohere (104 milliards de paramĂštres).

Pour les premiers, l’objectif sera d’évaluer les impacts de ces modĂšles qui n’utilisent qu’une partie de leur capacitĂ© de calcul maximale, ce qui ajoute un facteur de variabilitĂ© non-nĂ©gligeable. On soupçonne GPT-4 d’ĂȘtre un modĂšle sparse mixture of experts de 1700 milliards de paramĂštres qui n’active qu’une portion de ces paramĂštres par infĂ©rence.

Pour les plus gros modĂšles ouverts, le dĂ©fi consistera Ă  Ă©valuer leur impact Ă  travers les multiples GPUs sur lesquels ils sont dĂ©ployĂ©s, lĂ  oĂč de plus petits modĂšles n’en utilisent qu’un seul, prĂ©cise Samuel RincĂ©. Ce type de test “permettra de confirmer que notre loi fonctionne (aussi) pour de trĂšs gros modĂšles”.

Le projet GenAI Impact ira Ă©galement plus loin que d’autres Ă©tudes en prenant en compte la consommation Ă©nergĂ©tique des serveurs contenant ces fameux GPUs, ainsi que leurs impacts sur leur cycle de vie, en s’appuyant sur la base de rĂ©fĂ©rence en la matiĂšre, créée par l’association Boavizta , Ă  laquelle Samuel RincĂ© contribue Ă©galement.

Enfin, il ne faut pas se limiter aux Ă©missions : les impacts sont multiples, et donc les critĂšres de mesure le sont aussi. Comptent Ă©galement, par exemple, l’énergie primaire, la consommation de ressources comme les composants du hardware IT, et l’eau utilisĂ©e par les datacenters contenant les supercomputers IA (une conversation avec ChatGPT peut consommer un demi-litre d’eau en besoins de refroidissement des serveurs, pour rappel ).

Tout ce travail ne servira Ă©videmment Ă  rien s’il reste dans son coin. D’oĂč l’autre chantier, de Sensibilisation, qui vise Ă  faire savoir les trouvailles mĂ©thodologiques du projet. Comment ? En passant par la communautĂ© des dĂ©veloppeurs.

Si d’autres leviers ont Ă©tĂ© considĂ©rĂ©s par le groupe de travail - dont un plug-in pour navigateur web qui afficherait les Ă©missions de l’utilisation de ChatGPT en temps rĂ©el, ou un storytelling autour du sujet “GenAI Impact” - ces derniers ont Ă©tĂ© temporairement mis de cĂŽtĂ© Ă  la faveur d’une librairie Python dĂ©nommĂ©e EcoLogits , un package Ă  mettre Ă  disposition des dĂ©veloppeurs et organisations sensibles Ă  la thĂ©matique.

Pourquoi ? “Cela permet de toucher les organisations d’abord, indirectement, et de dĂ©cupler les impacts par la suite,” explique Samuel RincĂ©, esquissant un rĂ©sultat hypothĂ©tique : “si on pense au chatbot de service aprĂšs-vente, on pourrait limiter ses Ă©missions Ă  un certain niveau, pour qu’il passe la main Ă  un humain au bout d’un certain nombre de mauvaises rĂ©ponses [afin de ne pas trop Ă©mettre pour rien].”

Plus concrĂštement, dans le contexte actuel, oĂč peu de dĂ©veloppeurs sont incentivĂ©s pour rĂ©duire les Ă©missions gĂ©nĂ©rĂ©es par leur travail, la librairie Python leur permettrait de dĂ©montrer cet impact de la façon la plus simple et rapide possible. Or, ces outils n’existaient pas avant.

GrĂące au travail du groupe GenAI Impact, un dĂ©veloppeur pourrait, par exemple, combiner des donnĂ©es EcoLogits et CodeCarbon - autre librairie open source, qui estime les Ă©missions gĂ©nĂ©rĂ©es par l’exĂ©cution du code - dans ses dashboards habituels. Ainsi, les Ă©missions d’un modĂšle deviennent une mĂ©trique Ă  suivre comme une autre. Ensuite, il serait possible de recommander un modĂšle GenAI plutĂŽt qu’un autre parce qu’il Ă©met moins Ă  performance Ă©gale. “On aura de nouveaux arbitrages Ă  faire” grĂące au projet, promet Samuel RincĂ©.

Comment saura-t-on si le projet aura ‘fonctionné’ ? Le premier but serait l’acceptation de la librairie Python par une communautĂ© de dĂ©veloppeurs suffisamment importante pour qu’elle soit maintenue dans la durĂ©e comme projet open source par une Ă©quipe ‘core’ de quelques dĂ©veloppeurs. C’est cette maintenance Ă  long terme qui attestera de la qualitĂ© du travail, et donc qui incitera plus de dĂ©veloppeurs Ă  utiliser la librairie.

Par la suite, il faudra notamment s’assurer que le package s’intĂšgre bien dans l’écosystĂšme DevOps du moment ; que l’on puisse y ajouter d’autres modalitĂ©s si besoin (ex. gĂ©nĂ©ration d’images) ; et que tous les crĂ©ateurs de modĂšles GenAI (OpenAI, Anthropic, Mistral et compagnie) soient couverts par la librairie.

À l’avenir, prĂ©cise Caroline Jean-Pierre , Cheffe de Projet chez Data for Good, il pourra y avoir d’autres chantiers, par exemple “sensibiliser le grand public via la communication, amĂ©liorer les mĂ©thodologies d’évaluation des impacts, ou pourquoi pas l’internationalisation du projet ?”

De lĂ  Ă  influencer de futures lĂ©gislations - mĂȘme si ce n’est pas le but premier du projet - il n’y a qu’un pas !


Auteur : James Martin

Révisions et corrections : Claire SAIGNOL , Andrea Leylavergne

Remerciements : Samuel Rincé , Caroline Jean-Pierre , Clément Collignon

Articles liés

Améliorations majeures de notre méthodologie

Améliorations majeures de notre méthodologie

Annonce d’amĂ©liorations majeures de notre mĂ©thodologie Nous sommes ravis de partager des mises Ă  jour significatives de la mĂ©thodologie intĂ©grĂ©e Ă  EcoLogits pour Ă©valuer l’empreinte environnementale des grands modĂšles de langage (LLMs).

Lire la suite
Sortie de EcoLogits Calculator 🧼

Sortie de EcoLogits Calculator 🧼

Nous sommes ravis d’annoncer la sortie de l’EcoLogits Calculator 🧼 , un outil convivial qui estime l’impact environnemental des modĂšles d’IA.

Lire la suite