Оглавление

Сообщество Hugging Face выпустило вторую версию рейтинга энергоэффективности AI Energy Score с поддержкой тестирования моделей с логическим мышлением. Обновленный бенчмарк демонстрирует шокирующую разницу в энергопотреблении между обычными языковыми моделями и их версиями с включенным «рассуждением».

Энергетическая цена интеллекта

Проект AI Energy Score, изначально запущенный в феврале 2025 года, стал ответом на растущую потребность в стандартизированном подходе к оценке энергоэффективности AI-моделей. За прошедшие месяцы инициатива получила признание в таких изданиях, как The Economist, Nature и NPR, а также была представлена на Парижском форуме мира и в рамках климатической недели в Нью-Йорке.

Вторая версия рейтинга включает 39 новых моделей, среди которых 21 модель для генерации текста различного класса — от компактных решений для потребительских GPU до крупных систем, требующих нескольких ускорителей.

Шокирующие цифры рассуждений

Ключевым нововведением стала поддержка бенчмаркинга моделей с логическим мышлением — систем, которые используют внутренний монолог для «рассуждения» над вопросами. Анализ показал, что такие модели потребляют в среднем в 30 раз больше энергии, чем их базовые версии без функции рассуждений.

При детальном сравнении конкретных моделей разница становится еще более впечатляющей:

  • DeepSeek-R1-Distill-Llama-70B: 154-кратное увеличение потребления
  • Phi-4-reasoning-plus: 514-кратный рост энергозатрат
  • SmolLM3-3B: рекордные 697 раз

Основная причина такого скачка — количество генерируемых токенов. Модели с включенным рассуждением производят от 300 до 800 раз больше токенов, поскольку подробно «проговаривают» ход своих мыслей.

Тренд на рассуждающие модели напоминает гонку вооружений, где каждый следующий шаг в интеллекте оплачивается экспоненциальным ростом энергопотребления. Пока индустрия увлечена созданием все более «умных» систем, вопрос их экологической стоимости остается на втором плане. Ирония в том, что для создания «зеленого» ИИ нам сначала нужно научиться считать его энергию — именно этим и занимается AI Energy Score.

Непредсказуемая эффективность

Еще одна важная находка — энергопотребление рассуждающих моделей значительно менее предсказуемо, чем у стандартных LLM. Если раньше существовала четкая корреляция между размером модели и ее углеродным следом, то теперь каждый алгоритм рассуждения работает по-своему, с разной степенью детализации.

Модели с несколькими уровнями рассуждений, такие как серия GPT-OSS, демонстрируют интересную динамику. 20-миллиардная версия показывает разницу в 4,8 раза между режимами high и low, тогда как у 120-миллиардной модели этот показатель составляет всего 1,6 раза.

Прогресс эффективности: неоднозначные результаты

Сравнение новых моделей с февральской когортой 2025 года показывает смешанные результаты в плане энергоэффективности. Хотя некоторые новейшие системы демонстрируют улучшения, общая картина говорит об отсутствии системного прогресса в этом направлении.

Партнерство с Neuralwatt позволило создать новый открытый пакет AI Energy Benchmarks, который должен стать стандартом для энергетического бенчмаркинга на различном аппаратном и программном обеспечении. Это особенно актуально на фоне регулирующих инициатив, таких как Кодекс практики EU AI Act, который прямо требует создания бенчмарка для оценки энергопотребления при инференсе.

По материалам HuggingFace.