OpenAI выпустила GPT-Image-1.5: в четыре раза быстрее

OpenAI выпустила GPT-Image-1.5 — новую версию генератора изображений для ChatGPT, которая работает в четыре раза быстрее и точнее редактирует картинки. Это ответ на модель Google Nano Banana.

Оглавление

Ответ на вызов Google
Что обещает новая модель
Скорость, точность и контроль
Улучшенное редактирование и работа с текстом
Сравнение с конкурентами и стилистические нюансы
Снижение цен для разработчиков

OpenAI представила первую крупную ревизию своего генератора изображений в ChatGPT менее чем через год после того, как его предыдущая версия произвела фурор в интернете с картинками в духе Studio Ghibli. Новая модель, получившая название GPT-Image-1.5, по заявлениям компании, работает в четыре раза быстрее своего предшественника, лучше следует инструкциям (промптам) и точнее редактирует изображения.

Ответ на вызов Google

Предыдущая модель GPT-Image-1 была выпущена в марте этого года, но в августе её обошла по возможностям точного редактирования модель Google под названием «Nano Banana». Эта система от Google умела выполнять тонкие манипуляции: например, удалять человека с фона фотографии или менять причёску. Теперь OpenAI форсирует события, который захватил вершины LMArena leaderboard.

Как пишет Inc.com, ключевое улучшение GPT-Image-1.5 — в способности вносить конкретные правки, что делает её более полезной для создания маркетинговых материалов. Модель лучше сохраняет ключевые элементы брендинга, такие как логотипы и визуальные константы, при редактировании. Кроме того, она эффективнее генерирует точный текст на изображениях — важная функция для предприятий.

Что обещает новая модель

В посте в своём Substack глава по приложениям OpenAI Фидьи Симо заявила, что новая модель сохраняет «ключевые элементы, такие как освещение, композиция и сходство, согласованными между вводом и выводом, поэтому результаты остаются гораздо ближе к тому, что вы задумали».

Наряду с улучшенной моделью OpenAI запускает новый пользовательский интерфейс для генерации изображений в ChatGPT. Пользователи смогут выбирать из предустановленных стилей и популярных идей, что упростит участие в последних вирусных трендах. Симо описала этот новый интерфейс как виртуальную «творческую студию».

Гонка за генеративным лидерством превращается в бесконечный спринт: как только одна компания выпускает «убийственную» функцию, другая тут же отвечает своим апдейтом. Интересно, что фокус сместился с простого создания картинки «из ничего» к её тонкому редактированию — это признак зрелости рынка. Пользователям уже мало красивой абстракции, им нужен инструмент для работы. Однако заявления о «четырёхкратной скорости» стоит воспринимать с осторожностью: обычно это означает либо оптимизацию для конкретных сценариев, либо просто более мощное «железо» на стороне OpenAI. Настоящим испытанием будет способность модели корректно генерировать текст и работать с бренд-ассетами — там, где ошибка в одну букву или оттенок цвета может стоить репутации.

Скорость, точность и контроль

Основные улучшения, заявленные OpenAI, касаются трех аспектов: точности интерпретации промптов, сохранения деталей и скорости работы. Новая модель генерирует изображения в четыре раза быстрее, чем предыдущая версия, а пользователи могут ставить в очередь новые задачи, пока обрабатываются старые. Модель уже доступна всем пользователям ChatGPT и через API.

Генерация теперь не просто быстрее, но и точнее. Модель научилась правильно интерпретировать сложные инструкции по композиции. В тесте с сеткой 6×6, где в каждой ячейке требовалось разместить определенный объект, новая версия справилась с задачей, а старая — нет. Это открывает возможности для создания инфографик, коллажей и сцен, где важна точная расстановка элементов.

Новая модель генерации изображений OpenAI сравнялась с Google по сложным запросам

Улучшенное редактирование и работа с текстом

Значительно переработан механизм редактирования изображений. Теперь модель вносит точечные изменения, не нарушая целостности сцены — сохраняется освещение, композиция и лица людей. Заявленные возможности включают добавление, удаление, комбинирование, смешивание и транспозицию элементов изображения.

Потенциальные сценарии использования теперь шире: от фоторедактора и виртуальных примерочных для одежды и причесок до стилевых трансформаций. В демонстрациях OpenAI показала, как можно объединить несколько людей и собаку из разных фотографий в одну сцену или превратить портрет в постер в стиле голливудского золотого века.

Также улучшилась генерация текста. Модель лучше справляется с плотным, мелким шрифтом, что позволяет получать читаемые фрагменты статей, короткие таблицы или инфографику с цифрами. Однако, как признает OpenAI, длинные тексты, нестандартные шрифты, изображения со множеством лиц и контент на разных языках по-прежнему представляют сложность.

Сравнение с конкурентами и стилистические нюансы

В ходе независимого тестирования с использованием сложного, фотореалистичного промпта (например, «лошадь, оседлавшая астронавта») новая GPT-Image 1.5 показала результат, сопоставимый с последним поколением моделей, включая Flux 2 и Google Nano Banana Pro, и значительно превзошла свою предшественницу.

Первые впечатления указывают на интересный стилистический разрыв: изображения от ChatGPT выглядят более «насыщенными» и «полированными», как постановочные фотосессии. В то же время Nano Banana Pro от Google интерпретирует промпты буквальнее и выдает результат, похожий на случайные, более естественные кадры. Это может быть как особенностью моделей, так и вопросом формулировки запросов.

Снижение цен для разработчиков

Несмотря на рост производительности, OpenAI снизила стоимость использования модели через API. Разработчики, обращающиеся к GPT Image 1.5 через API, теперь платят на 20% меньше. Новые тарифы выглядят так:

Изображения (входные/выходные токены): $8 / $32 за миллион.
Текстовые токены: $5 (вход) / $10 (выход) за миллион.

Для сравнения, у предыдущей модели GPT-Image 1 стоимость генерации одного изображения варьировалась от 0.02 до 0.19 цента в зависимости от настроек качества.

Компания также отмечает улучшения в сохранении брендовых логотипов и визуальных элементов, что важно для маркетинговых и e-commerce кейсов. Предыдущая версия генератора изображений останется доступной в виде кастомного GPT.

По материалам Inc.com

Новости

OpenAI выпустила редактор изображений GPT-Image-1.5 с новым интерфейсом и быстрой работой

Ответ на вызов Google

Что обещает новая модель

Скорость, точность и контроль

Улучшенное редактирование и работа с текстом

Сравнение с конкурентами и стилистические нюансы

Снижение цен для разработчиков

Еще интереснее

10 тысяч авторов выпустили пустую книгу в знак протеста против обучения LLM на их трудах

Верховный суд США окончательно лишил ИИ авторских прав на изображение

Студия Disney использует ИИ-фейки для продвижения новой части «Мстителей»

Disney и OpenAI заключают многомиллиардную сделку по лицензированию персонажей для Sora

Оставить комментарий