Оглавление

Китайская лаборатория искусственного интеллекта Deepseek представила языковую модель Deepseek V3.2, которая по ключевым тестам на рассуждение и решению задач сравнялась с флагманскими коммерческими моделями OpenAI GPT-5 и Google Gemini 3 Pro. Более того, её экспериментальная версия достигла уровня золотой медали на Международной математической олимпиаде (IMO) 2025 года. Главный сюрприз: модель выпущена под открытой лицензией Apache 2.0, что меняет расклад сил на рынке.

Технические улучшения в Deepseek V3.2

Разработчики выделили три главные слабости современных открытых моделей: неэффективная обработка длинных текстов, слабые возможности автономных агентов и недостаточные инвестиции в пост-тренинг. V3.2 атакует эти проблемы с двух флангов.

  • Deepseek Sparse Attention (DSA): Новая архитектура внимания, которая вместо перепроверки каждого предыдущего токена использует небольшую индексную систему для выявления только важных частей истории текста. Это снижает вычислительные затраты на длинных контекстах без потери качества.
  • Масштабный пост-тренинг: На этап дообучения с подкреплением и выравнивания теперь тратится более 10% от изначальных затрат на предварительное обучение. Два года назад этот показатель составлял около 1%. Для генерации данных обучения команда сначала создала специализированные модели для математики, программирования, логики и агентских задач, которые затем готовили данные для финальной модели. Было также построено более 1800 синтетических сред и тысячи исполняемых сценариев на основе реальных GitHub Issues.

То, как Deepseek атакует слабые места открытых моделей, напоминает хирургическую операцию. Они не просто увеличивают параметры, а целенаправленно перепроектируют архитектуру внимания и вкладываются в качество пост-тренинга — области, которые многие недофинансировали. Особенно иронично, что стратегия «больше предобучения», которую некоторые исследователи списывали со счетов, снова в игре. Это показывает, что в гонке ИИ еще много неразведанных путей, а не только дорогостоящее масштабирование.

Сравнительные показатели: битва гигантов

В тестах V3.2 демонстрирует впечатляющую конкурентоспособность. Вот ключевые результаты:

  • AIME 2025 (математика): Deepseek V3.2 — 93.1%, GPT-5 (High) — 94.6%, Gemini 3 Pro — 95.0%.
  • LiveCodeBench (программирование): V3.2 — 83.3%, GPT-5 — 84.5%, Gemini 3 Pro — 90.7%.
  • SWE Multilingual (разработка на основе GitHub Issues): V3.2 решает 70.2% проблем, значительно опережая GPT-5 (55.3%), но отставая от Gemini 3 Pro (54.2% в другом тесте).
  • Terminal Bench 2.0: V3.2 показывает 46.4% против 35.2% у GPT-5.

Таким образом, модель не просто догоняет, а в некоторых практических задачах, связанных с разработкой, обходит текущие версии GPT-5.

Столбчатая диаграмма сравнения DeepSeek V3.2 Speciale & Thinking с GPT-5 High, Claude-4.5 Sonnet и Gemini 3 Pro

Математическая корона и открытый исходный код

Настоящий прорыв связан с экспериментальным вариантом Deepseek V3.2 Speciale, в котором ослаблены ограничения на длину цепочек рассуждения. Эта версия:

  • Заняла 10-е место и получила золото на Международной олимпиаде по информатике (IOI) 2025.
  • Заняла второе место на финале ICPC World Final 2025.
  • Интегрировав компоненты Deepseek Math V2, достигла золотого уровня на Международной математической олимпиаде (IMO) 2025.

Этим летом OpenAI и Google DeepMind анонсировали модели, способные на подобное, что многие считали невозможным для чистых языковых моделей. Deepseek не только повторил этот результат, но и сделал его общедоступным, пока конкуренты лишь обещают улучшенные версии «в ближайшие месяцы».

Однако за мощность Speciale приходится платить: для решения задач с Codeforces ей требуется в среднем 77 000 токенов, тогда как Gemini 3 Pro справляется с 22 000. Из-за высоких затрат и задержек в стандартной V3.2 применены строгие лимиты на токены.

Где модель еще отстает и как ее получить

Разработчики признают, что V3.2 все еще уступает коммерческим фронтирным моделям в трех аспектах: широте знаний, эффективности использования токенов и производительности на самых сложных задачах. Планируется устранить разрыв в знаниях через дополнительное предобучение.

Модель доступна здесь и сейчас по адресу Hugging Face и через API. Это прямой вызов ценовой политике OpenAI, предлагающий более дешевую альтернативу для агентских рабочих процессов. V3.2 также превосходит другие открытые модели, такие как Kimi K2 Thinking и MiniMax M2, при работе с Model Context Protocol (MCP).

По материалам The Decoder.