DeepSeek V3.1-Terminus: улучшения в инструментальных задачах

DeepSeek представила V3.1-Terminus — улучшенную гибридную модель ИИ с фокусом на инструментальных задачах. Модель показывает рост производительности до 38.5 баллов в бенчмарках при сохранении агрессивных цен от $1.68 за миллион токенов.

Оглавление

Ключевые улучшения и производительность
Архитектура и стоимость
Доступность и ограничения

Китайская компания DeepSeek представила обновленную версию своей гибридной модели искусственного интеллекта — V3.1-Terminus. Модель демонстрирует значительное улучшение производительности в задачах, требующих использования внешних инструментов, при этом сохраняя агрессивную ценовую политику.

Ключевые улучшения и производительность

Новая версия модели получила несколько важных обновлений:

Улучшено распознавание китайского и английского языков
Устранены ошибки с случайными специальными символами
Оптимизированы встроенные агенты, включая код-агент и поисковый агент

Наибольший прогресс наблюдается в бенчмарках, измеряющих работу с инструментами:

BrowseComp: с 30.0 до 38.5 баллов
Terminal-bench: с 31.3 до 36.7 баллов

Табличное сравнение результатов тестирования DeepSeek V3.1 и V3.1 Terminus

Интересно, что производительность на китайской версии BrowseComp-ZH немного снизилась, что указывает на компромисс между эффективностью на английском и китайском контенте.

Архитектура и стоимость

V3.1-Terminus основана на архитектуре Deepseek-V3.1, представленной в августе, с двумя режимами работы:

Режим «мышления» (Deepseek-reasoner) для сложных задач с инструментами
Обычный режим (Deepseek-chat) для простых диалогов

Оба режима поддерживают контекстное окно до 128 000 токенов. Модель прошла дообучение на дополнительных 840 миллиардах токенов с новым токенизатором и обновленными шаблонами промптов.

Ценовая политика остается одной из самых агрессивных на рынке:

Выходные токены: $1.68 за миллион
Кэш-попадания: $0.07 за миллион токенов
Кэш-промахи: $0.56 за миллион токенов

Для сравнения: GPT-5 стоит $10.00, а Claude Opus 4.1 — до $75.00 за миллион выходных токенов.

При всей технической прогрессивности китайских моделей, их ценовое преимущество имеет обратную сторону — государственную цензуру. Пока западные компании спорят об этике ИИ, китайские разработчики просто следуют регуляторным требованиям, создавая инструменты, которые в политических вопросах становятся рупором официальной пропаганды. Технически совершенный, но идеологически ограниченный ИИ — вот парадокс современной индустрии.

Доступность и ограничения

Модель доступна через приложение, веб-интерфейс и API. Открытые веса опубликованы на Hugging Face под лицензией MIT.

Как и другие китайские ИИ-модели, Deepseek-V3.1-Terminus подвергается государственной цензуре, что влияет на ее производительность в определенных темах. Исследования показывают, что модель выдает менее качественный код при запросах, связанных с Фалуньгун, Тибетом и Тайванем.

По сообщению The Decoder, аналогичные ограничения рассматриваются и администрацией Трампа для американских моделей ИИ.

Новости

DeepSeek выпустила улучшенную модель V3.1-Terminus с фокусом на инструментальных задачах

Ключевые улучшения и производительность

Архитектура и стоимость

Доступность и ограничения

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий