Together AI запустила самообучающийся ускоритель для языковых моделей

Together AI представила ATLAS — первую самообучающуюся систему спекулятивного декодирования, которая автоматически улучшает производительность LLM во время работы.

Оглавление

Проблема статических спекуляторов
Архитектура двойного спекулятора
Производительность и результаты
Применение в реальных сценариях

Компания Together AI анонсировала революционную систему ATLAS — адаптивный спекулятор, который автоматически улучшает производительность языковых моделей во время работы без ручной настройки. Это первый в своем роде подход к спекулятивному декодированию, который динамически обучается на реальных данных.

Проблема статических спекуляторов

Традиционные спекуляторы, используемые для ускорения вывода LLM, имеют фундаментальное ограничение — они статичны. Обучаясь на фиксированном наборе данных, такие модели не могут адаптироваться к изменяющимся рабочим нагрузкам. Когда кодовая база растет, паттерны трафика смещаются или распределение запросов меняется, даже самые оптимизированные спекуляторы начинают отставать.

ATLAS решает эту проблему через непрерывное обучение на исторических паттернах и живом трафике. Система автоматически подстраивается под поведение целевой модели в реальном времени, что означает: чем больше вы используете сервис вывода, тем лучше работает ATLAS.

Архитектура двойного спекулятора

Система построена на двух взаимодействующих спекуляторах:

Статический спекулятор — тяжеловесная модель, обученная на обширном корпусе, обеспечивающая надежную базовую производительность
Адаптивный спекулятор — легковесная модель, которая быстро обновляется на основе реального трафика, специализируясь на новых доменах
Контроллер с оценкой уверенности — выбирает, какому спекулятору доверять на каждом шаге и определяет оптимальную глубину предсказания

Статический спекулятор служит страховочным механизмом — он обеспечивает стабильную производительность даже при резких изменениях трафика или когда адаптивный путь еще не обучен.

Сравнение скорости декодирования моделей DeepSeek-V3.1 и Kimi-K2 — Источник: www.together.ai

Производительность и результаты

На платформе NVIDIA HGX B200 с полностью адаптированной системой ATLAS демонстрирует впечатляющие результаты:

До 500 TPS на модели DeepSeek-V3.1
До 460 TPS на модели Kimi-K2
Ускорение в 2.65 раза по сравнению со стандартным декодированием

Система превосходит даже специализированное железо вроде Groq при работе с Arena Hard трафиком.

Адаптивное спекулятивное декодирование — это тот редкий случай, когда инженерная элегантность встречается с практической полезностью. Вместо того чтобы замораживать оптимизацию в момент обучения, ATLAS превращает сам процесс инференса в обучающую среду. Особенно впечатляет применение в RL-тренинге, где статические спекуляторы быстро теряют синхронизацию с изменяющейся политикой. Правда, возникает закономерный вопрос: насколько устойчива такая система к аномальным паттернам запросов, которые могут «сломать» адаптивный компонент?

Применение в реальных сценариях

Система особенно эффективна в сценариях, где рабочие нагрузки постоянно эволюционируют. Например, во время сессии программирования адаптивный спекулятор может специализироваться на конкретных файлах кода, которые редактируются и не были видны во время обучения. Это дополнительно увеличивает rate принятия токенов и скорость декодирования.

Схема архитектуры системы адаптивного обучения и прогнозирования — Источник: www.together.ai

В reinforcement learning, где фаза генерации траекторий занимает до 70% общего времени, ATLAS сохраняет выравнивание с целевой политикой даже при ее смещении в процессе обучения.

По материалам Together AI.

Новости

Together AI представила самообучающуюся систему для ускорения языковых моделей

Проблема статических спекуляторов

Архитектура двойного спекулятора

Производительность и результаты

Применение в реальных сценариях

Еще интереснее

Qwen обходит Llama: реальная статистика деплоя ИИ-моделей в облачной инфраструктуре

Новая LLM от Meta* — Avocado — откладывается из-за отставания от конкурентов

Эпоха аномально дешевых токенов для доступа к LLM может закончиться уже скоро

OpenAI встроит сервис по генерации видео Sora в ChatGPT ради удержания аудитории

Оставить комментарий