В то время как часть экспертов рисует мрачные картины скорого «железного потолка» для развития искусственного интеллекта, другие видят в текущих ограничениях лишь неиспользованный потенциал. Дэн Фу, вице-президент по ядрам в Together.ai, опубликовал развернутый анализ, в котором утверждает, что прогресс в направлении Искусственного Общего Интеллекта (Artificial General Intelligence, AGI) далеко не уперся в стену.
Его главный тезис прост: мы катастрофически неэффективно используем уже существующее «железо», и следующий порядок величины производительности откроет не новый чип, а более тесная совместная разработка аппаратного и программного обеспечения.
Где скрываются резервы производительности
В своем разборе Фу приводит конкретные цифры, которые ставят под сомнение тезис о стагнации. Современные крупные тренировочные прогоны, такие как обучение моделей уровня DeepSeek-V3 или Llama-4, демонстрируют среднюю утилизацию операций с плавающей запятой (Mean FLOP Utilization, MFU) на уровне лишь ~20%. В задачах же вывода (инференса) этот показатель часто и вовсе опускается до однозначных цифр. Это не предел возможностей аппаратуры, а показатель огромного пространства для оптимизации на уровне системного ПО, компиляторов и алгоритмов.
Ключевые области роста, которые он выделяет:
- Оптимизация утилизации железа: Существующие фреймворки и библиотеки далеки от идеала в использовании вычислительных ресурсов современных GPU и TPU.
- Ко-дизайн железа и софта: Будущий скачок произойдет не от более быстрых транзисторов самих по себе, а от архитектур, созданных с учетом специфики задач ИИ, и ПО, которое умеет эту архитектуру «выжимать».
- Инновации в численных форматах: Такие методы, как обучение с пониженной точностью (например, FP4), обещают радикально сократить требования к памяти и пропускной способности без существенной потери качества моделей.
Модели отстают от железа
Важный контраргумент пессимистам: текущие state-of-the-art модели — это вчерашний день с точки зрения аппаратной базы. Они были обучены на кластерах, которые уже устарели. Следующее поколение вычислений — массивы из 100 000 и более GPU последнего поколения — еще даже не начало в полной мере влиять на ландшафт. Когда модели, изначально спроектированные под такие масштабы, пройдут полный цикл обучения, мы увидим качественно иной результат.
Споры о «потолке вычислений» часто напоминают историю с предсказаниями конца света из-за нехватки ресурсов: как только становится тесно, находится кто-то, кто придумывает, как делать больше с тем же самым. Цифры Фу — отличное напоминание, что индустрия ИИ все еще находится в эпохе «паровых двигателей» с точки зрения эффективности. Пока большие компании соревнуются в размере датасетов и параметров, настоящая битва за AGI, возможно, развернется на куда менее гламурном поле системного программирования и компьютерной архитектуры. Ирония в том, что путь к сверхразуму может лежать через отладку кэша и оптимизацию аллокации памяти.
Полезность уже здесь
Фу также обращает внимание на то, что даже без учета будущих прорывов, современные модели уже демонстрируют трансформационный потенциал. Он приводит пример написания высокопроизводительных GPU-ядёр с помощью ИИ при контроле со стороны человека. Это не абстрактная исследовательская задача, а реальный инструмент, меняющий сложные рабочие процессы сегодня.
Таким образом, его анализ предлагает сместить фокус с вопроса «хватит ли нам транзисторов?» на вопрос «как эффективнее использовать те транзисторы, что у нас уже есть?». Прогресс к AGI упирается не столько в физические ограничения полупроводников, сколько в нашу способность к инженерной изобретательности.
По материалам Together.ai.
Оставить комментарий