OpenAI Codex: автономный агент с управлением экраном

OpenAI представила масштабное обновление Codex, наделив ИИ способностью управлять приложениями на Mac и работать автономно на протяжении недель.

Оглавление

Автономия и долгосрочное планирование задач
Интеграция визуальных моделей и расширение экосистемы

Разработчики из OpenAI представили масштабное обновление своего инструмента Codex, которое превращает привычный помощник по написанию кода в полноценного агента, способного работать в фоновом режиме. Как сообщает издание The Decoder, ключевым нововведением стала функция «фонового использования компьютера», позволяющая нейросети буквально видеть происходящее на мониторе, нажимать на кнопки и вводить текст от имени пользователя.

Эта интеграция выходит за рамки простого дополнения строк в редакторе, поскольку теперь Codex может управлять приложениями на macOS, имитируя действия человека. Система позволяет запускать несколько агентов параллельно, что открывает путь к автоматизации тестирования интерфейсов и работы с программами, у которых нет программного интерфейса (API), при этом не мешая основной деятельности владельца устройства.

В обновленную версию встроен специализированный браузер, предназначенный для прямого комментирования веб-страниц. С его помощью разработчики могут давать агенту точные инструкции по правке фронтенда или игровых элементов, просто выделяя нужные области на сайте. В OpenAI подчеркивают, что в будущем Codex получит еще более глубокий контроль над навигацией, выходящий за рамки локальных веб-приложений.

Автономия и долгосрочное планирование задач

Одним из наиболее интригующих аспектов обновления стала способность системы к самостоятельному планированию. Теперь инструмент может не только поддерживать контекст в рамках старых диалогов, но и назначать себе задачи на будущее. По заявлениям разработчиков, Codex способен «просыпаться» и продолжать работу над проектами в течение дней или даже недель без постоянного надзора со стороны человека.

Для командной работы это означает возможность делегировать ИИ рутинные процессы: от мониторинга обсуждений в Slack и Gmail до автоматической обработки пулл-реквестов в GitHub. Инструмент научился работать с несколькими вкладками терминала одновременно и получил поддержку протокола SSH для подключения к удаленным средам разработки, что ранее требовало ручной настройки и постоянного переключения внимания.

Передача управления рабочим столом нейросети — это впечатляющий технический маневр, который наконец-то делает из «умного Т9» настоящего напарника. Однако за этой магией скрывается стратегическая неопределенность: пока неясно, как OpenAI решит вопросы безопасности при многонедельной автономности. Без четких границ ответственности мы рискуем получить не помощника, а бесконтрольный процесс, который в один прекрасный день решит переписать ваш продакшен, пока вы спите. Красиво, но требует железных нервов.

Интеграция визуальных моделей и расширение экосистемы

В состав Codex теперь включена модель gpt-image-1.5, отвечающая за генерацию изображений. Это позволяет разработчикам создавать макеты интерфейсов, иконки и игровые ассеты непосредственно в процессе написания кода. Комбинируя скриншоты текущего экрана с генеративными возможностями, команды могут итерировать дизайн продукта, не покидая рабочее окружение.

Экосистема проекта пополнилась более чем 90 новыми плагинами, которые интегрируют Codex с популярными корпоративными инструментами. В список вошли решения для управления задачами в JIRA, инструменты автоматизации CircleCI и GitLab, а также расширения для пакета Microsoft Suite и Slack. Эти дополнения превращают агент в центральный узел, который собирает контекст из множества источников и действует на его основе.

На данный момент функции компьютерного зрения и управления экраном доступны только пользователям macOS с аккаунтами ChatGPT. Жителям Евросоюза и Великобритании придется подождать — из-за особенностей местного законодательства внедрение некоторых функций персонализации и прямого управления системой в этих регионах произойдет несколько позже.

Новости

OpenAI превращает Codex в автономного агента с доступом к экрану компьютера

Автономия и долгосрочное планирование задач

Интеграция визуальных моделей и расширение экосистемы

Еще интереснее

В новом бенчмарке на скорость разработки GPT-5.6 Sol обходит Claude Opus 4.8

Zhipu AI представила агента для кодинга ZCode на базе недорогой модели GLM-5.2

Почему ИИ-агенты заходят в тупик: проблема не в поиске, а в неумении уточнять детали

Anthropic сокращает системный промпт Claude Code на 80% после перехода на Fable 5

Оставить комментарий