Оглавление
OpenAI представила первую крупную ревизию своего генератора изображений в ChatGPT менее чем через год после того, как его предыдущая версия произвела фурор в интернете с картинками в духе Studio Ghibli. Новая модель, получившая название GPT-Image-1.5, по заявлениям компании, работает в четыре раза быстрее своего предшественника, лучше следует инструкциям (промптам) и точнее редактирует изображения.
Ответ на вызов Google
Предыдущая модель GPT-Image-1 была выпущена в марте этого года, но в августе её обошла по возможностям точного редактирования модель Google под названием «Nano Banana». Эта система от Google умела выполнять тонкие манипуляции: например, удалять человека с фона фотографии или менять причёску. Теперь OpenAI форсирует события, который захватил вершины LMArena leaderboard.
Как пишет Inc.com, ключевое улучшение GPT-Image-1.5 — в способности вносить конкретные правки, что делает её более полезной для создания маркетинговых материалов. Модель лучше сохраняет ключевые элементы брендинга, такие как логотипы и визуальные константы, при редактировании. Кроме того, она эффективнее генерирует точный текст на изображениях — важная функция для предприятий.
Что обещает новая модель
В посте в своём Substack глава по приложениям OpenAI Фидьи Симо заявила, что новая модель сохраняет «ключевые элементы, такие как освещение, композиция и сходство, согласованными между вводом и выводом, поэтому результаты остаются гораздо ближе к тому, что вы задумали».
Наряду с улучшенной моделью OpenAI запускает новый пользовательский интерфейс для генерации изображений в ChatGPT. Пользователи смогут выбирать из предустановленных стилей и популярных идей, что упростит участие в последних вирусных трендах. Симо описала этот новый интерфейс как виртуальную «творческую студию».
Гонка за генеративным лидерством превращается в бесконечный спринт: как только одна компания выпускает «убийственную» функцию, другая тут же отвечает своим апдейтом. Интересно, что фокус сместился с простого создания картинки «из ничего» к её тонкому редактированию — это признак зрелости рынка. Пользователям уже мало красивой абстракции, им нужен инструмент для работы. Однако заявления о «четырёхкратной скорости» стоит воспринимать с осторожностью: обычно это означает либо оптимизацию для конкретных сценариев, либо просто более мощное «железо» на стороне OpenAI. Настоящим испытанием будет способность модели корректно генерировать текст и работать с бренд-ассетами — там, где ошибка в одну букву или оттенок цвета может стоить репутации.
Скорость, точность и контроль
Основные улучшения, заявленные OpenAI, касаются трех аспектов: точности интерпретации промптов, сохранения деталей и скорости работы. Новая модель генерирует изображения в четыре раза быстрее, чем предыдущая версия, а пользователи могут ставить в очередь новые задачи, пока обрабатываются старые. Модель уже доступна всем пользователям ChatGPT и через API.
Генерация теперь не просто быстрее, но и точнее. Модель научилась правильно интерпретировать сложные инструкции по композиции. В тесте с сеткой 6×6, где в каждой ячейке требовалось разместить определенный объект, новая версия справилась с задачей, а старая — нет. Это открывает возможности для создания инфографик, коллажей и сцен, где важна точная расстановка элементов.

Улучшенное редактирование и работа с текстом
Значительно переработан механизм редактирования изображений. Теперь модель вносит точечные изменения, не нарушая целостности сцены — сохраняется освещение, композиция и лица людей. Заявленные возможности включают добавление, удаление, комбинирование, смешивание и транспозицию элементов изображения.
Потенциальные сценарии использования теперь шире: от фоторедактора и виртуальных примерочных для одежды и причесок до стилевых трансформаций. В демонстрациях OpenAI показала, как можно объединить несколько людей и собаку из разных фотографий в одну сцену или превратить портрет в постер в стиле голливудского золотого века.
Также улучшилась генерация текста. Модель лучше справляется с плотным, мелким шрифтом, что позволяет получать читаемые фрагменты статей, короткие таблицы или инфографику с цифрами. Однако, как признает OpenAI, длинные тексты, нестандартные шрифты, изображения со множеством лиц и контент на разных языках по-прежнему представляют сложность.
Сравнение с конкурентами и стилистические нюансы
В ходе независимого тестирования с использованием сложного, фотореалистичного промпта (например, «лошадь, оседлавшая астронавта») новая GPT-Image 1.5 показала результат, сопоставимый с последним поколением моделей, включая Flux 2 и Google Nano Banana Pro, и значительно превзошла свою предшественницу.
Первые впечатления указывают на интересный стилистический разрыв: изображения от ChatGPT выглядят более «насыщенными» и «полированными», как постановочные фотосессии. В то же время Nano Banana Pro от Google интерпретирует промпты буквальнее и выдает результат, похожий на случайные, более естественные кадры. Это может быть как особенностью моделей, так и вопросом формулировки запросов.
Снижение цен для разработчиков
Несмотря на рост производительности, OpenAI снизила стоимость использования модели через API. Разработчики, обращающиеся к GPT Image 1.5 через API, теперь платят на 20% меньше. Новые тарифы выглядят так:
- Изображения (входные/выходные токены): $8 / $32 за миллион.
- Текстовые токены: $5 (вход) / $10 (выход) за миллион.
Для сравнения, у предыдущей модели GPT-Image 1 стоимость генерации одного изображения варьировалась от 0.02 до 0.19 цента в зависимости от настроек качества.
Компания также отмечает улучшения в сохранении брендовых логотипов и визуальных элементов, что важно для маркетинговых и e-commerce кейсов. Предыдущая версия генератора изображений останется доступной в виде кастомного GPT.
По материалам Inc.com
Оставить комментарий