Оглавление
Сообщество Hugging Face выпустило вторую версию рейтинга энергоэффективности AI Energy Score с поддержкой тестирования моделей с логическим мышлением. Обновленный бенчмарк демонстрирует шокирующую разницу в энергопотреблении между обычными языковыми моделями и их версиями с включенным «рассуждением».
Энергетическая цена интеллекта
Проект AI Energy Score, изначально запущенный в феврале 2025 года, стал ответом на растущую потребность в стандартизированном подходе к оценке энергоэффективности AI-моделей. За прошедшие месяцы инициатива получила признание в таких изданиях, как The Economist, Nature и NPR, а также была представлена на Парижском форуме мира и в рамках климатической недели в Нью-Йорке.
Вторая версия рейтинга включает 39 новых моделей, среди которых 21 модель для генерации текста различного класса — от компактных решений для потребительских GPU до крупных систем, требующих нескольких ускорителей.
Шокирующие цифры рассуждений
Ключевым нововведением стала поддержка бенчмаркинга моделей с логическим мышлением — систем, которые используют внутренний монолог для «рассуждения» над вопросами. Анализ показал, что такие модели потребляют в среднем в 30 раз больше энергии, чем их базовые версии без функции рассуждений.
При детальном сравнении конкретных моделей разница становится еще более впечатляющей:
- DeepSeek-R1-Distill-Llama-70B: 154-кратное увеличение потребления
- Phi-4-reasoning-plus: 514-кратный рост энергозатрат
- SmolLM3-3B: рекордные 697 раз
Основная причина такого скачка — количество генерируемых токенов. Модели с включенным рассуждением производят от 300 до 800 раз больше токенов, поскольку подробно «проговаривают» ход своих мыслей.
Тренд на рассуждающие модели напоминает гонку вооружений, где каждый следующий шаг в интеллекте оплачивается экспоненциальным ростом энергопотребления. Пока индустрия увлечена созданием все более «умных» систем, вопрос их экологической стоимости остается на втором плане. Ирония в том, что для создания «зеленого» ИИ нам сначала нужно научиться считать его энергию — именно этим и занимается AI Energy Score.
Непредсказуемая эффективность
Еще одна важная находка — энергопотребление рассуждающих моделей значительно менее предсказуемо, чем у стандартных LLM. Если раньше существовала четкая корреляция между размером модели и ее углеродным следом, то теперь каждый алгоритм рассуждения работает по-своему, с разной степенью детализации.
Модели с несколькими уровнями рассуждений, такие как серия GPT-OSS, демонстрируют интересную динамику. 20-миллиардная версия показывает разницу в 4,8 раза между режимами high и low, тогда как у 120-миллиардной модели этот показатель составляет всего 1,6 раза.
Прогресс эффективности: неоднозначные результаты
Сравнение новых моделей с февральской когортой 2025 года показывает смешанные результаты в плане энергоэффективности. Хотя некоторые новейшие системы демонстрируют улучшения, общая картина говорит об отсутствии системного прогресса в этом направлении.
Партнерство с Neuralwatt позволило создать новый открытый пакет AI Energy Benchmarks, который должен стать стандартом для энергетического бенчмаркинга на различном аппаратном и программном обеспечении. Это особенно актуально на фоне регулирующих инициатив, таких как Кодекс практики EU AI Act, который прямо требует создания бенчмарка для оценки энергопотребления при инференсе.
По материалам HuggingFace.
Оставить комментарий