Оглавление

Китайская компания DeepSeek выпустила гибридную модель V3.1, которая впервые превзошла собственную специализированную модель для рассуждений R1 в стандартных тестах. Новая архитектура сочетает два режима работы и предлагает радикально низкие цены по сравнению с западными конкурентами.

Гибридный подход по образцу Anthropic

Модель V3.1 развивает предыдущую версию DeepSeek-V3, добавив 840 миллиардов токенов обучения для улучшения работы с длинным контекстом и сложными задачами. Обновлены токенизатор и шаблон чата.

Ключевая особенность — два режима работы:

  • Think mode (deepseek-reasoner) — для многошаговых рассуждений и использования инструментов
  • Non-think mode (deepseek-chat) — для простых задач и диалога

Оба режима поддерживают контекстное окно в 128 000 токенов. Переключение между режимами происходит через специальный токен </think> в промпте. Пользователи могут испытать функцию в чате DeepSeek через кнопку «DeepThink».

Сравнение производительности DeepSeek-V3.1 с улучшениями относительно модели R1 в тестах
Источник: the-decoder.com

Гибридные модели — это логический эволюционный шаг, но отсутствие вызова функций в режиме рассуждений серьёзно ограничивает их применение в агентных сценариях. DeepSeek демонстрирует усердную инженерную работу, но до полноценной конкуренции с OpenAI и Anthropic в части инструментального мышления еще далеко.

Производительность и ограничения

По заявлениям DeepSeek, модель показывает лучшие результаты в бенчмарках SWE и Terminal-Bench с «значительным приростом в эффективности мышления». Think Mode работает быстрее предыдущей модели рассуждений R1. Архитектура не изменилась: 671 миллиард общих параметров, 37 миллиардов активных.

Результаты бенчмарка SWE с использованием внутреннего фреймворка код-агента
Источник: the-decoder.com

Согласно анализу Artificial Analysis, V3.1 набирает 60 баллов в индексе интеллекта в режиме рассуждений против 59 у R1. Однако модель все еще отстает от последней разработки Alibaba и немного уступает открытой модели рассуждений GPT-OSS от OpenAI.

Критическое ограничение: V3.1 не поддерживает вызов функций в режиме рассуждений, что «существенно ограничивает ее возможность поддерживать агентские рабочие процессы». Конкуренты, такие как GPT-5 Thinking, могут использовать такие инструменты, как анализ изображений или генерация кода внутри цепочки мыслей.

Ценовое превосходство

С 5 сентября 2025 года DeepSeek вводит новую структуру цен:

  • Входные токены: $0.07 за миллион при кеш-попаданиях, $0.56 при промахах
  • Выходные токены: $1.68 за миллион

Эти тарифы в разы ниже конкурентов:

  • Gemini 2.5 Pro: $10.00 за миллион выходных токенов
  • OpenAI GPT-5: $10.00 за миллион после снижения цен
  • Anthropic Claude Opus 4.1: до $75.00 за миллион
Диаграмма сравнения метрик производительности DeepSeek-V3.1 от Artificial Analysis
Источник: the-decoder.com

V3.1 доступна через два API-эндпоинта. Поддержка формата Anthropic API и бета-версия строгого вызова функций упрощают разработку. Открытые веса доступны на Hugging Face под лицензией MIT.

Как и другие китайские ИИ-модели, DeepSeek-V3.1 применяет контентные ограничения и адаптирует ответы в соответствии с государственными guidelines. Аналогичные ограничения могут появиться в США, где администрация Трампа продвигает регулирование обработки «woke»-тем, пишет The Decoder.