DeepSeek снижает стоимость API-запросов с помощью разреженного внимания

DeepSeek выпустила модель с разреженным вниманием, которая сокращает стоимость API-запросов на 50% при работе с длинными контекстами.

Оглавление

Как работает технология разреженного внимания
Экономический эффект
Контекст и перспективы

Китайская компания DeepSeek анонсировала экспериментальную модель V3.2-exp с технологией разреженного внимания, которая потенциально способна сократить стоимость API-вызовов вдвое при работе с длинными контекстами. Модель доступна на Hugging Face вместе с техническим документом на GitHub.

Как работает технология разреженного внимания

Ключевой инновацией стала система DeepSeek Sparse Attention, состоящая из двух модулей:

Lightning indexer — идентифицирует релевантные фрагменты в длинном контексте
Fine-grained token selection system — выбирает конкретные токены для обработки

Вместо обработки всего контекста целиком, система фокусируется только на наиболее значимых частях, что значительно снижает вычислительную нагрузку.

Диаграмма архитектуры модели DeepSeek с разреженным вниманием

Экономический эффект

По предварительным оценкам DeepSeek, стоимость API-запросов при работе с длинными контекстами может снизиться на 50%. Хотя требуются дополнительные независимые тесты, открытая доступность модели позволяет быстро проверить эти заявления.

Разреженное внимание — это не революция, а эволюция трансформерной архитектуры. Технология решает фундаментальную проблему квадратичной сложности внимания, но требует тщательной балансировки между производительностью и качеством. Интересно, что прорыв приходит из Китая, где инженеры часто вынуждены оптимизировать вычисления из-за ограниченного доступа к самым мощным GPU.

Контекст и перспективы

DeepSeek продолжает удивлять нестандартными подходами — после модели R1, обученной преимущественно через обучение с подкреплением, компания снова демонстрирует инженерную изобретательность. В отличие от американских коллег, которые часто полагаются на грубую силу вычислительных мощностей, китайские разработчики вынуждены искать более эффективные алгоритмические решения.

Технология разреженного внимания может стать важным шагом в снижении операционных затрат для провайдеров ИИ-сервисов, особенно в регионах с высокой стоимостью облачных вычислений.

По материалам TechCrunch.

Новости

DeepSeek представила модель с разреженным вниманием для снижения стоимости API-запросов

Как работает технология разреженного внимания

Экономический эффект

Контекст и перспективы

Еще интереснее

Новый рейтинг энергоэффективности показал, что рассуждающие LLM требуют в 30 раз больше энергии

Исследовательские ИИ-агенты выдумывают факты, но не признают, что не знают

OpenAI отключила рекомендации в ChatGPT — пользователи принимали их за рекламу

DataRobot представила Talk to My Docs — агента для работы с разрозненными документами

Оставить комментарий