Оглавление
Компания OpenAI анонсировала выпуск GPT-5.4 — обновленной мультимодальной модели, ориентированной на глубокую интеграцию в рабочие процессы. Как сообщает издание Technology Org, ключевым отличием релиза стала нативная способность ИИ управлять компьютером, имитируя действия пользователя через эмуляцию клавиатуры и мыши на основе анализа скриншотов.
Обновление охватывает интерфейс ChatGPT (режим GPT-5.4 Thinking), API и специализированную среду Codex. Разработчики объединили улучшенные когнитивные способности с навыками программирования, унаследованными от версии GPT-5.3-Codex, создав инструмент, претендующий на роль полноценного цифрового сотрудника.
Превосходство в профессиональных задачах
Эффективность модели оценивалась по бенчмарку GDPval, который охватывает 44 профессии в ключевых отраслях экономики. GPT-5.4 показала результат, сопоставимый с уровнем квалифицированных специалистов или превышающий его, в 83% случаев. Для сравнения, предыдущая итерация GPT-5.2 достигала лишь 70,9% в аналогичных тестах.
Особый прогресс зафиксирован в работе с документацией и сложными таблицами. На внутренних тестах по финансовому моделированию, имитирующих задачи аналитиков инвестиционных банков, точность GPT-5.4 составила 87,3%. Юридический сектор также получил значительный апгрейд: в специализированном тесте BigLaw Bench модель набрала 91%, продемонстрировав высокую точность при анализе длинных контрактов.
Компьютерное зрение и «ручное» управление
Наиболее амбициозным нововведением является функция Computer Use. В отличие от простых интеграций через API, GPT-5.4 взаимодействует с операционной системой визуально. В тесте OSWorld-Verified, проверяющем навигацию по десктопным приложениям, модель достигла успеха в 75% попыток, что формально выше человеческого показателя в 72,4%.
Визуальное восприятие было усилено для поддержки изображений высокого разрешения — до 10,24 млн пикселей. Это позволяет ИИ детально разбирать интерфейсы сложных инженерных и дизайнерских программ. Скорость работы в таких сценариях выросла в три раза, а потребление токенов снизилось благодаря новой функции tool search, которая подгружает спецификации инструментов только в момент необходимости.
Демонстрация GPT-5.4 впечатляет технической эквилибристикой, но за 75% успеха в управлении ОС скрывается операционный риск: оставшиеся 25% ошибок в реальном бизнес-процессе могут стоить дороже, чем экономия на штате. OpenAI мастерски маскирует стагнацию фундаментальной логики расширением инструментария. Это отличный пульт управления, которому всё ещё страшно доверить ключи от квартиры.
Инженерный стек и экономика токенов
Для разработчиков представлен режим /fast в Codex, ускоряющий генерацию кода в 1,5 раза без потери качества. Особое внимание уделено фронтенд-разработке и визуальной отладке приложений через инструмент Playwright (Interactive). Инженерная экспертиза модели теперь позволяет ей не только писать код, но и самостоятельно тестировать его в браузере или среде Electron.
Несмотря на рост номинальной стоимости API (входные токены подорожали до $2,50 за миллион), OpenAI утверждает, что общие затраты пользователей снизятся. Оптимизация контекста и выборочный поиск инструментов позволяют сократить объем передаваемых данных почти вдвое в сложных рабочих цепочках.
Безопасность системы контролируется в рамках Preparedness Framework. Учитывая высокие кибервозможности модели, OpenAI внедрила асинхронную блокировку подозрительных запросов и расширенный мониторинг цепочек рассуждений (Chain-of-Thought), чтобы исключить возможность скрытого манипулирования системой со стороны ИИ.
Оставить комментарий