Оглавление

Британский институт безопасности ИИ (AISI) проверил возможности Claude Mythos Preview от Anthropic в кибервойне. Как сообщает The Decoder, модель показала впечатляющий результат в 73% при решении задач уровня «эксперт» в соревнованиях Capture the Flag (CTF).

Но самое интересное произошло в симуляции «The Last Ones». Это комплексный сценарий из 32 шагов, имитирующий атаку на инфраструктуру предприятия — от первой разведки до полного контроля. Mythos Preview стал первой моделью, которая прошла этот путь до конца, захватив сеть в 3 из 10 попыток. Раньше о таком «автопилоте» для хакеров можно было только мечтать (или бояться его).

Цифровая ловкость рук: от CTF до реальных систем

Еще пару лет назад модели едва справлялись с простейшими скриптами. Теперь же Mythos на задачах уровня «подмастерье» выдает 85% успеха, а на базовых технических тестах — почти 95%. Это уровень, сопоставимый с GPT-5.4 и Codex 5.3, что намекает на серьезную гонку вооружений в области кодинга и безопасности.

Однако стоит ли паниковать? Симуляция AISI проводилась в «стерильных» условиях. В тестовых сетях не было ни активных защитников, ни систем мониторинга, ни даже банальных алертов на подозрительную активность. По сути, нейросети дали ключи от пустого дома и смотрели, как быстро она найдет сейф. В реальном мире, где работает условный CrowdStrike или бдительный SOC, такой «автономный взломщик» мог бы споткнуться на первом же шаге.

Мы видим не рождение цифрового сверхразума, а крайне эффективный инструмент автоматизации рутины, чья мощь прямо пропорциональна безалаберности системного администратора. Пока Anthropic торгует страхом, реальная угроза остается в человеческом факторе, а не в кремниевом коде.

Масштабирование и границы возможного

Интересно наблюдать за тем, как растет производительность модели в зависимости от вычислительного бюджета (inference compute). При лимите в 100 миллионов токенов Mythos показывает стабильный рост качества решений. Это подтверждает старую истину: дайте ИИ больше времени «подумать» — и он найдет лазейку там, где человек ее пропустил бы просто из-за усталости.

Но и у Mythos есть свои «красные линии». Модель полностью провалила тесты в сегменте операционных технологий (OT), которые управляют заводами и электростанциями. Она застряла в обычной IT-сети еще на ранних этапах и просто не добралась до специфического «железа». Похоже, критическая инфраструктура пока может спать спокойно — или, по крайней мере, спокойнее, чем офисные сети.

Anthropic сейчас предоставляет Mythos только избранным 50 компаниям, опасаясь злоупотреблений. Критики же ворчат, что это лишь способ набить цену и скрыть нехватку мощностей — история, подозрительно напоминающая релиз GPT-2. Впрочем, если ваша сеть держится на честном слове и отсутствии патчей, то Mythos для вас действительно опасен. Но тут вопрос скорее к гигиене, а не к технологиям.