OpenAI GPT-5.4: обзор возможностей и компьютерного зрения

OpenAI выпустила модель GPT-5.4, способную управлять интерфейсом ОС через скриншоты и превосходящую профессионалов в большинстве офисных задач.

Оглавление

Превосходство в профессиональных задачах
Компьютерное зрение и «ручное» управление
Инженерный стек и экономика токенов

Компания OpenAI анонсировала выпуск GPT-5.4 — обновленной мультимодальной модели, ориентированной на глубокую интеграцию в рабочие процессы. Как сообщает издание Technology Org, ключевым отличием релиза стала нативная способность ИИ управлять компьютером, имитируя действия пользователя через эмуляцию клавиатуры и мыши на основе анализа скриншотов.

Обновление охватывает интерфейс ChatGPT (режим GPT-5.4 Thinking), API и специализированную среду Codex. Разработчики объединили улучшенные когнитивные способности с навыками программирования, унаследованными от версии GPT-5.3-Codex, создав инструмент, претендующий на роль полноценного цифрового сотрудника.

Превосходство в профессиональных задачах

Эффективность модели оценивалась по бенчмарку GDPval, который охватывает 44 профессии в ключевых отраслях экономики. GPT-5.4 показала результат, сопоставимый с уровнем квалифицированных специалистов или превышающий его, в 83% случаев. Для сравнения, предыдущая итерация GPT-5.2 достигала лишь 70,9% в аналогичных тестах.

Особый прогресс зафиксирован в работе с документацией и сложными таблицами. На внутренних тестах по финансовому моделированию, имитирующих задачи аналитиков инвестиционных банков, точность GPT-5.4 составила 87,3%. Юридический сектор также получил значительный апгрейд: в специализированном тесте BigLaw Bench модель набрала 91%, продемонстрировав высокую точность при анализе длинных контрактов.

Компьютерное зрение и «ручное» управление

Наиболее амбициозным нововведением является функция Computer Use. В отличие от простых интеграций через API, GPT-5.4 взаимодействует с операционной системой визуально. В тесте OSWorld-Verified, проверяющем навигацию по десктопным приложениям, модель достигла успеха в 75% попыток, что формально выше человеческого показателя в 72,4%.

Визуальное восприятие было усилено для поддержки изображений высокого разрешения — до 10,24 млн пикселей. Это позволяет ИИ детально разбирать интерфейсы сложных инженерных и дизайнерских программ. Скорость работы в таких сценариях выросла в три раза, а потребление токенов снизилось благодаря новой функции tool search, которая подгружает спецификации инструментов только в момент необходимости.

Демонстрация GPT-5.4 впечатляет технической эквилибристикой, но за 75% успеха в управлении ОС скрывается операционный риск: оставшиеся 25% ошибок в реальном бизнес-процессе могут стоить дороже, чем экономия на штате. OpenAI мастерски маскирует стагнацию фундаментальной логики расширением инструментария. Это отличный пульт управления, которому всё ещё страшно доверить ключи от квартиры.

Инженерный стек и экономика токенов

Для разработчиков представлен режим /fast в Codex, ускоряющий генерацию кода в 1,5 раза без потери качества. Особое внимание уделено фронтенд-разработке и визуальной отладке приложений через инструмент Playwright (Interactive). Инженерная экспертиза модели теперь позволяет ей не только писать код, но и самостоятельно тестировать его в браузере или среде Electron.

Несмотря на рост номинальной стоимости API (входные токены подорожали до $2,50 за миллион), OpenAI утверждает, что общие затраты пользователей снизятся. Оптимизация контекста и выборочный поиск инструментов позволяют сократить объем передаваемых данных почти вдвое в сложных рабочих цепочках.

Безопасность системы контролируется в рамках Preparedness Framework. Учитывая высокие кибервозможности модели, OpenAI внедрила асинхронную блокировку подозрительных запросов и расширенный мониторинг цепочек рассуждений (Chain-of-Thought), чтобы исключить возможность скрытого манипулирования системой со стороны ИИ.

Новости

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Превосходство в профессиональных задачах

Компьютерное зрение и «ручное» управление

Инженерный стек и экономика токенов

Еще интереснее

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

OpenAI представила GPT-5.3 Instant с меньшим числом галлюцинаций и естественным диалогом

В Anthropic нашли необычный способ упростить миграцию данных для пользователей ChatGPT

Оставить комментарий