Оглавление
Разработчики из OpenAI представили масштабное обновление своего инструмента Codex, которое превращает привычный помощник по написанию кода в полноценного агента, способного работать в фоновом режиме. Как сообщает издание The Decoder, ключевым нововведением стала функция «фонового использования компьютера», позволяющая нейросети буквально видеть происходящее на мониторе, нажимать на кнопки и вводить текст от имени пользователя.
Эта интеграция выходит за рамки простого дополнения строк в редакторе, поскольку теперь Codex может управлять приложениями на macOS, имитируя действия человека. Система позволяет запускать несколько агентов параллельно, что открывает путь к автоматизации тестирования интерфейсов и работы с программами, у которых нет программного интерфейса (API), при этом не мешая основной деятельности владельца устройства.
В обновленную версию встроен специализированный браузер, предназначенный для прямого комментирования веб-страниц. С его помощью разработчики могут давать агенту точные инструкции по правке фронтенда или игровых элементов, просто выделяя нужные области на сайте. В OpenAI подчеркивают, что в будущем Codex получит еще более глубокий контроль над навигацией, выходящий за рамки локальных веб-приложений.
Автономия и долгосрочное планирование задач
Одним из наиболее интригующих аспектов обновления стала способность системы к самостоятельному планированию. Теперь инструмент может не только поддерживать контекст в рамках старых диалогов, но и назначать себе задачи на будущее. По заявлениям разработчиков, Codex способен «просыпаться» и продолжать работу над проектами в течение дней или даже недель без постоянного надзора со стороны человека.
Для командной работы это означает возможность делегировать ИИ рутинные процессы: от мониторинга обсуждений в Slack и Gmail до автоматической обработки пулл-реквестов в GitHub. Инструмент научился работать с несколькими вкладками терминала одновременно и получил поддержку протокола SSH для подключения к удаленным средам разработки, что ранее требовало ручной настройки и постоянного переключения внимания.
Передача управления рабочим столом нейросети — это впечатляющий технический маневр, который наконец-то делает из «умного Т9» настоящего напарника. Однако за этой магией скрывается стратегическая неопределенность: пока неясно, как OpenAI решит вопросы безопасности при многонедельной автономности. Без четких границ ответственности мы рискуем получить не помощника, а бесконтрольный процесс, который в один прекрасный день решит переписать ваш продакшен, пока вы спите. Красиво, но требует железных нервов.
Интеграция визуальных моделей и расширение экосистемы
В состав Codex теперь включена модель gpt-image-1.5, отвечающая за генерацию изображений. Это позволяет разработчикам создавать макеты интерфейсов, иконки и игровые ассеты непосредственно в процессе написания кода. Комбинируя скриншоты текущего экрана с генеративными возможностями, команды могут итерировать дизайн продукта, не покидая рабочее окружение.
Экосистема проекта пополнилась более чем 90 новыми плагинами, которые интегрируют Codex с популярными корпоративными инструментами. В список вошли решения для управления задачами в JIRA, инструменты автоматизации CircleCI и GitLab, а также расширения для пакета Microsoft Suite и Slack. Эти дополнения превращают агент в центральный узел, который собирает контекст из множества источников и действует на его основе.
На данный момент функции компьютерного зрения и управления экраном доступны только пользователям macOS с аккаунтами ChatGPT. Жителям Евросоюза и Великобритании придется подождать — из-за особенностей местного законодательства внедрение некоторых функций персонализации и прямого управления системой в этих регионах произойдет несколько позже.
Оставить комментарий