in

Quelle est la quantité d'énergie votre invite d'IA? Ça dépend

Puce nvidia h100

Un chatbot peut ne pas transpirer chaque fois que vous lui demandez de faire votre liste de courses ou de proposer ses meilleures blagues papa. Mais au fil du temps, la planète pourrait.

À mesure que l'IA génératrice telles que les modèles de grandes langues (LLMS) devient plus omniprésente, des questions critiques se tiennent à jouer. Pour chaque interaction que vous avez avec l'IA, quelle quantité d'énergie prend-elle – et combien de carbone est émis dans l'atmosphère?

Plus tôt ce mois-ci, le PDG d'OpenAI, Sam Altman, a affirmé qu'une «question de ChatGpt moyenne» utilise une énergie égale à «sur ce qu'un four utiliserait un peu plus d'une seconde». C'est dans le domaine de la raison: la société de recherche sur l'IA, Epoch, l'IA a précédemment calculé une estimation similaire. Cependant, les experts disent que la réclamation manque de contexte clé, comme ce qu'est une requête «moyenne».

«Si vous vouliez être rigoureux à ce sujet, vous devrez donner une gamme», explique Sasha Luccioni, chercheuse de l'IA et responsable du climat à la firme IA Hugging Face. « Vous ne pouvez pas simplement jeter un numéro là-bas. »

Les principaux acteurs, dont Openai et Anthropic, ont les données, mais ils ne les partagent pas. Au lieu de cela, les chercheurs ne peuvent reconstituer que des indices limités des LLM open source. Une étude publiée le 19 juin Frontières en communication a examiné 14 de ces modèles, y compris ceux de Meta et Deepseek, et ont constaté que certains modèles produisaient jusqu'à 50 fois plus d'émissions de co₂ que d'autres.

Mais ces chiffres offrent simplement un instantané étroit – et ils ne deviennent plus difficiles qu'après avoir pris en compte le coût du carbone des modèles de formation, la fabrication et le maintien du matériel pour les gérer et l'échelle à laquelle l'IA génératrice est prête à imprégner notre vie quotidienne.

«La recherche sur l'apprentissage automatique a été motivée par la précision et les performances», explique Mosharaf Chowdhury, informaticien de l'Université du Michigan à Ann Arbor. « L'énergie a été l'enfant du milieu dont personne ne veut parler. »

Nouvelles scientifiques s'est entretenu avec quatre experts pour déballer ces coûts cachés et ce qu'ils signifient pour l'avenir de l'IA.

Qu'est-ce qui rend les grands modèles de langage si avides d'énergie?

Vous entendrez souvent les gens décrire les LLM par le nombre de paramètres dont ils disposent. Les paramètres sont les boutons internes que le modèle ajuste pendant la formation pour améliorer ses performances. Plus il y a de paramètres, plus le modèle a de capacité pour apprendre des modèles et des relations dans les données. GPT-4, par exemple, devrait avoir plus d'un billion de paramètres.

«Si vous voulez apprendre toutes les connaissances du monde, vous avez besoin de modèles de plus en plus grands», explique Noman Bashir, informaticien du MIT.

Des modèles comme ceux-ci ne fonctionnent pas sur votre ordinateur portable. Au lieu de cela, ils sont déployés dans des centres de données massifs situés à travers le monde. Dans chaque centre, les modèles sont chargés sur des serveurs contenant des puces puissantes appelées unités de traitement graphiques (GPU), qui font le craquement du nombre nécessaire pour générer des sorties utiles. Plus un modèle a de paramètres, plus généralement des puces sont nécessaires pour l'exécuter – en particulier pour obtenir les utilisateurs la réponse la plus rapide possible.

Tout cela prend de l'énergie. Déjà, 4,4% de toute l'énergie aux États-Unis s'adresse aux centres de données utilisés pour une variété de demandes technologiques, y compris l'IA. D'ici 2028, ce nombre devrait atteindre jusqu'à 12%.

Pourquoi est-il si difficile de mesurer l'empreinte carbone des LLM?

Avant que quiconque puisse poser une question à un modèle, il doit d'abord être formé. Pendant la formation, un modèle digère de vastes ensembles de données et ajuste ses paramètres internes en conséquence. Cela prend souvent des semaines et des milliers de GPU, brûlant une énorme quantité d'énergie. Mais comme les entreprises divulguent rarement leurs méthodes de formation – quelles données elles ont utilisé, combien de temps de calcul ou quel type d'énergie l'a alimenté – les émissions de ce processus sont en grande partie une boîte noire.

La seconde moitié du cycle de vie du modèle est l'inférence, ce qui se produit chaque fois qu'un utilisateur invite le modèle. Au fil du temps, l'inférence devrait tenir compte de la majeure partie des émissions d'un modèle. «Vous formez un modèle une fois, puis des milliards d'utilisateurs utilisent le modèle tant de fois», explique Chowdhury.

Mais l'inférence est également difficile à quantifier. L'impact environnemental d'une requête unique peut varier considérablement en fonction du centre de données vers lequel il est acheminé, ce que le réseau énergétique alimente le centre de données et même l'heure de la journée. En fin de compte, seules les entreprises qui exécutent ces modèles ont une image complète.

Existe-t-il un moyen d'estimer la consommation d'énergie d'un LLM?

Pour la formation, pas vraiment. Pour l'inférence, en quelque sorte.

Openai et Anthropic gardent leurs modèles propriétaires, mais d'autres sociétés telles que Meta et Deepseek Release Open-source versions de leurs produits d'IA. Les chercheurs peuvent gérer ces modèles localement et mesurer l'énergie consommée par leur GPU comme indicateur indirect de la quantité d'inférence énergétique prendrait.

Dans leur nouvelle étude, Maximilian Dauner et Gudrun Socher à l'Université des sciences appliqués de Munich en Allemagne ont testé 14 modèles d'IA open source, allant de 7 milliards à 72 milliards de paramètres (ces boutons internes), sur le GPU NVIDIA A100. Les modèles de raisonnement, qui expliquent leur réflexion étape par étape, ont consommé beaucoup plus d'énergie pendant l'inférence que les modèles standard, qui émanent directement la réponse.

La raison se résume à des jetons ou aux bits de texte qu'un modèle traite pour générer une réponse. Plus de jetons signifient plus de calcul et une consommation d'énergie plus élevée. En moyenne, les modèles de raisonnement ont utilisé 543,5 jetons par question, contre seulement 37,7 pour les modèles standard. À l'échelle, les questions s'additionnent: l'utilisation du modèle de raisonnement à 70 paramètres Deepseek R1 pour répondre à 600 000 questions émettrait autant de co₂ qu'un vol aller-retour de Londres à New York.

En réalité, les chiffres ne peuvent être plus élevés. De nombreuses entreprises sont passées au nouveau H100 de NVIDIA, une puce spécifiquement optimisée pour les charges de travail de l'IA qui sont encore plus avides de puissance que l'A100. Pour refléter plus précisément l'énergie totale utilisée pendant l'inférence – y compris les systèmes de refroidissement et d'autres matériels de support – des recherches antérieures ont révélé que la consommation d'énergie GPU signalée doit être doublée.

Même encore, rien de tout cela ne explique les émissions générées par la fabrication du matériel et la construction des bâtiments qui le hébergent, ce que l'on appelle le carbone incarné, souligne Bashir.

Que peuvent faire les gens pour rendre leur utilisation de l'IA plus respectueuse de l'environnement?

Choisir le bon modèle pour chaque tâche fait une différence. «Est-il toujours nécessaire d'utiliser le plus grand modèle pour des questions faciles?» Demande Dauner. «Ou un petit modèle peut-il également répondre à des questions faciles, et nous pouvons réduire les émissions de CO en fonction de cela?»

De même, toutes les questions n'ont pas besoin d'un modèle de raisonnement. Par exemple, l'étude de Dauner a révélé que le modèle standard Qwen 2.5 a atteint une précision comparable au modèle de raisonnement Cogito 70b, mais avec moins d'un tiers de la production de carbone.

Les chercheurs ont créé d'autres outils publics pour mesurer et comparer la consommation d'énergie de l'IA. Hugging Face gère un classement appelé AI Energy Score, qui classe les modèles en fonction de la quantité d'énergie qu'ils utilisent sur 10 tâches différentes, de la génération de texte à la classification d'images à la transcription vocale. Il comprend à la fois des modèles open source et propriétaires. L'idée est d'aider les gens à choisir le modèle le plus efficace pour un emploi donné, constatant cette «tache d'or» entre les performances, la précision et l'efficacité énergétique.

Chowdhury aide également à exécuter ML.Energy, qui a un classement similaire. «Vous pouvez économiser beaucoup d'énergie en abandonnant un tout petit peu de performance», explique Chowdhury.

L'utilisation d'IA moins fréquemment pendant la journée ou l'été, lorsque les pointes de demande d'énergie et les systèmes de refroidissement font des heures supplémentaires, peut également faire une différence. «C'est similaire à AC», explique Bashir. « Si la température extérieure est très élevée, vous auriez besoin de plus d'énergie pour refroidir l'intérieur de la maison. »

Même la façon dont vous expliquez vos requêtes est importante. Environnement, il n'est pas nécessaire d'être poli avec le chatbot. Toute entrée supplémentaire que vous investissez prend plus de puissance de traitement pour analyser. «Cela coûte des millions de [extra] Dollars à cause de «merci» et «s'il vous plaît», dit Dauner. «Chaque mot inutile a une influence sur le temps d'exécution.»

En fin de compte, cependant, la politique doit rattraper son retard. Luccioni suggère un cadre basé sur un système de notation énergétique, comme ceux utilisés pour les appareils électroménagers. Par exemple, «si votre modèle est utilisé par, disons, 10 millions d'utilisateurs par jour ou plus, il doit avoir un score d'énergie de B + ou plus», dit-elle.

Sinon, l'offre d'énergie ne sera pas en mesure de maintenir la demande croissante de l'IA. «Je vais à des conférences où les opérateurs de grille paniquent», explique Luccioni. «Les entreprises technologiques ne peuvent pas continuer à faire cela. Les choses vont commencer à aller vers le sud.»

Une photographie d'un véhicule électrique à une borne de recharge.

Renault Megane 3 contre Toyota Auris – Le duel des compactes

Les nouvelles collections de maisons de Louis Vuitton fonctionnent et la mode

Les nouvelles collections de maisons de Louis Vuitton fonctionnent et la mode