Обзор Claude Sonnet 5: характеристики и тесты новой ИИ-модели

Anthropic выпустила Claude Sonnet 5, которая вплотную приблизилась к флагману Opus по производительности и получила расширенные возможности для автономной работы.

Оглавление

Превосходство в бенчмарках и реальных задачах
Вопросы безопасности и доступность

Компания Anthropic представила Claude Sonnet 5 — новую итерацию своей нейросети среднего уровня, которая, судя по всему, призвана стереть границы между доступными и элитными моделями. Согласно материалу издания The Decoder, новинка демонстрирует впечатляющие способности к автономному планированию и использованию внешних инструментов, таких как браузеры и терминалы.

Разработчики называют эту версию самой «агентной» в семействе Sonnet. Это означает, что ИИ теперь не просто отвечает на вопросы, а способен выстраивать цепочки действий для решения комплексных задач. Еще несколько месяцев назад подобный уровень автономности был эксклюзивной чертой тяжеловесных и дорогих моделей вроде Opus 4.8, но теперь эти возможности спускаются в массовый сегмент.

Превосходство в бенчмарках и реальных задачах

Опубликованные результаты тестов показывают, что Sonnet 5 уверенно обходит свою предшественницу 4.6 во всех дисциплинах. В тесте на агентное программирование SWE-bench Pro модель набрала 63,2%, что заметно выше предыдущего результата в 58,1%. Хотя флагманская Opus 4.8 все еще удерживает лидерство с 69,2%, разрыв между ними стремительно сокращается.

Особого внимания заслуживает тест GDPval-AA v2, имитирующий реальную интеллектуальную работу. Здесь Sonnet 5 набрала 1618 баллов, формально обойдя даже Opus 4.8 с ее 1615 баллами. В задачах, связанных с использованием терминала (Terminal-Bench 2.1), рост производительности составил почти 20%, что делает модель крайне интересным инструментом для автоматизации системного администрирования.

Смещение фокуса на агентность превращает LLM из продвинутого Т9 в полноценного стажера, которому можно доверить консоль. Однако за рост автономности придется платить: более сложные цепочки рассуждений неизбежно увеличивают потребление токенов на одну задачу. Мы получаем более умный инструмент, который незаметно для пользователя начинает обходиться дороже в эксплуатации, чем его «глупые» предшественники. Эффективность здесь — лишь красивая обертка для возросших аппетитов системы.

Вопросы безопасности и доступность

На фоне недавних блокировок моделей Mythos 5 и Fable 5 правительством США из-за киберрисков, Anthropic подчеркивает, что Sonnet 5 не обучалась специфическим хакерским навыкам. В тестах на создание эксплойтов модель показывает результаты значительно ниже критических отметок, хотя и демонстрирует небольшой прогресс в частичном контроле уязвимостей по сравнению с версией 4.6.

Для минимизации рисков компания внедрила систему Real-time Cyber Safeguards, которая отслеживает опасную активность в реальном времени. По заверениям Anthropic, эти фильтры настроены мягче, чем в скандальной Fable 5, на которую жаловались исследователи, но при этом они эффективно пресекают попытки написания вредоносного кода или обхода инструкций (промпт-инъекций).

Модель уже доступна пользователям всех тарифных планов. До 31 августа 2026 года действует ознакомительная цена: $2 за миллион входных токенов и $10 за миллион выходных. После этого периода стоимость вернется к стандартным для линейки Sonnet значениям — $3 и $15 соответственно. База знаний нейросети ограничена январем 2026 года, а окно контекста составляет один миллион токенов.

Новости

Anthropic выпускает Claude Sonnet 5: модель вплотную приближается к флагманской Opus

Превосходство в бенчмарках и реальных задачах

Вопросы безопасности и доступность

Еще интереснее

OpenAI ограничивает доступ к GPT-5.6 по просьбе правительства США

Meituan представила модель LongCat-2.0 на 1,3 млрд параметров, обученную на китайских чипах

DeepSeek представила DSpark: открытый фреймворк ускоряет инференс LLM на 85%

Новая модель GPT-5.6 Sol чаще контролирует свою цепочку рассуждений, чем конкуренты

Оставить комментарий