Оглавление
Компания OpenAI представила GPT-5.1-Codex-Max — новую модель для программирования, способную работать над сложными инженерными задачами в течение 24 часов, сообщает The Decoder.
Технические характеристики и производительность
Новая модель заменяет предыдущую GPT-5.1-Codex во всех интерфейсах Codex и демонстрирует впечатляющие результаты в бенчмарках:
| GPT-5.1-Codex (high) | GPT-5.1-Codex-Max (xhigh) | |
|---|---|---|
| SWE-Bench Verified (n=500) | 73.7% | 77.9% |
| SWE-Lancer IC SWE | 66.3% | 79.9% |
| TerminalBench 2.0 | 52.8% | 58.1% |
GPT-5.1-Codex-Max использует на 30% меньше «токенов мышления» при сохранении качества работы и работает на 27-42% быстрее в реальных задачах. Для случаев, когда задержка не критична, доступен режим Extra High reasoning с дополнительным временем на анализ.
Работа с длительными сессиями
Ключевая особенность модели — способность сохранять фокус на одной задаче более 24 часов, что соответствует заявлениям Anthropic о модели Sonnet 4.5. Для управления длительными сессиями используется процесс «компактизации» — когда контекстное окно заполняется, система автоматически сжимает историю сессии, сохраняя ключевую информацию и отбрасывая несущественные детали.
GPT-5.1-Codex-Max стала первой моделью, изначально обученной работе с несколькими контекстными окнами таким способом. Модель также специально обучалась для эффективной работы в среде Windows для улучшения обработки командной строки.
Ограничения и безопасность
OpenAI предупреждает, что проверка работы агента становится «все более важной» по мере увеличения продолжительности задач, поскольку эти системы все еще допускают ошибки. Компания подчеркивает, что Codex действует как дополнительный рецензент, а не замена человеческой проверке.
Заявление о 24-часовой непрерывной работе выглядит впечатляюще, но на практике это создает новые проблемы. Чем больше кода генерирует ИИ, тем сложнее его проверять и понимать для будущей отладки. Эффективность таких длинных сессий может быть сведена на нет необходимостью тщательного ревью, что превращает обещанное ускорение в иллюзию.
В вопросах безопасности модель позиционируется как самая способная в области кибербезопасности на сегодняшний день, хотя все еще не достигает внутреннего порога «High Capability». OpenAI планирует поддерживать защитников с помощью инструментов вроде Aardvark, но рекомендует разработчикам дважды проверять работу агента перед развертыванием.
Доступность и лимиты
Доступ к модели открыт для пользователей ChatGPT Plus, Pro, Team, Edu и Enterprise. Максимальная версия заменяет старую модель по умолчанию, отправляя предшественника на пенсию всего через несколько дней после релиза.
- Для ChatGPT Plus: 45-225 локальных сообщений и 10-60 облачных задач каждые 5 часов
- Для Pro: 300-1500 локальных сообщений и 50-400 облачных задач за тот же период
Цены на новую модель пока не объявлены — предыдущая версия стоила $1.25 за миллион входных токенов и $10 за миллион выходных. Доступ к API ожидается в ближайшее время.
Оставить комментарий