GPT Image 1.5 от OpenAI: фоторедактор будущего или оружие для фейков

OpenAI представила GPT Image 1.5 — модель для редактирования изображений через текстовые запросы. Инструмент позволяет легко изменять фотографии, сохраняя лица, и является ответом на успех Google с Nano Banana.

Оглавление

Погоня за Nano Banana
Единая архитектура для текста и изображений
Трение исчезает

Двести лет для создания правдоподобной фотоподделки требовалась лаборатория, мастерство работы в Photoshop или хотя бы твердая рука с ножницами. Теперь достаточно написать предложение. Во вторник OpenAI представила инструмент, который сводит процесс манипуляции с изображениями к текстовому запросу, пишет Ars Technica.

Погоня за Nano Banana

Это не первый подобный инструмент на рынке. Хотя OpenAI работала над диалоговой моделью редактирования изображений еще со времен GPT-4o в 2024 году, Google обогнала ее, выпустив публичный прототип в марте, а затем доработав его до популярной модели Nano Banana и Nano Banana Pro. Энтузиазм сообщества вокруг модели Google привлек внимание OpenAI.

Новая модель GPT Image 1.5 — это система синтеза изображений, которая, по заявлению, генерирует картинки в четыре раза быстрее предшественника и примерно на 20% дешевле через API. Модель стала доступна всем пользователям ChatGPT во вторник и представляет собой еще один шаг к тому, чтобы фотореалистичное редактирование стало обыденным процессом, не требующим визуальных навыков.

Космическая Владычица Вселенной, добавленная на фото комнаты с диваном с помощью GPT Image 1.5

Единая архитектура для текста и изображений

GPT Image 1.5 примечательна тем, что это «родная мультимодальная» модель, где генерация изображений происходит внутри той же нейронной сети, которая обрабатывает текстовые запросы. Для сравнения, более ранний генератор OpenAI DALL-E 3 использовал другую технику, диффузию.

Этот новый тип модели трактует изображения и текст как одно и то же: фрагменты данных, называемые «токенами», которые нужно предсказать, или паттерны, которые нужно завершить. Если вы загрузите фото своего отца и напишете «одень его в смокинг на свадьбу», модель обработает ваши слова и пиксели изображения в едином пространстве, а затем выведет новые пиксели так же, как вывела бы следующее слово в предложении.

Используя эту технику, GPT Image 1.5 может легче изменять визуальную реальность, чем более ранние модели: менять позу или положение человека, показывать сцену под другим углом — с переменным успехом. Она также может удалять объекты, менять визуальные стили, корректировать одежду и дорабатывать конкретные области, сохраняя сходство лиц при последовательных правках. Можно вести диалог с ИИ о фотографии, уточняя и пересматривая, как при работе над черновиком письма в ChatGPT.

Фижи Симо, CEO по продуктам в OpenAI, написала в блоге, что чат-интерфейс ChatGPT изначально не был предназначен для визуальной работы. «Создание и редактирование изображений — это задача другого рода и заслуживает пространства, созданного для визуалов», — отметила Симо. В связи с этим OpenAI представила отдельное пространство для создания изображений на боковой панели ChatGPT с предустановленными фильтрами и популярными запросами.

Здание Харрелсон-Холл, преобразованное в НЛО с помощью GPT Image 1.5 — Выпуск GPT Image 1.5 — классический пример гонки вооружений в ИИ. OpenAI, долгое время бывшая лидером в генеративном пространстве, оказалась в положении догоняющей после успеха Google с Nano Banana. Это показывает, что даже крупнейшие игроки не могут позволить себе почивать на лаврах. Интересно, что компания решила не изобретать велосипед заново, а просто скопировала ключевую фичу конкурента — сохранение лиц при редактировании. Стратегия проста: догнать и перегнать, используя свой огромный пользовательский охват в ChatGPT. Вопрос лишь в том, хватит ли у Google запаса хода, чтобы сохранить лидерство, или OpenAI снова перехватит инициативу, как это было с GPT-4.

Трение исчезает

GPT Image 1.5 не идеальна. В кратком тестировании она не всегда хорошо следовала инструкциям в промптах. Но когда она работает, результаты выглядят более убедительными и детализированными, чем у предыдущей мультимодальной модели OpenAI. Для более детального сравнения консультант по программному обеспечению Шон Педичини создал полезный сайт «GenAI Image Editing Showdown», где проводит A/B-тестирование различных моделей.

Барьеры для реалистичного редактирования и манипуляции фотографиями продолжают падать. Такой бесшовный, реалистичный и легкий процесс может спровоцировать (каламбур намеренный) культурную перекалибровку того, что визуальные образы значат для общества. Для тех, кто вырос в более раннюю медиа-эпоху, может быть немного страшно видеть себя в ситуациях, которых на самом деле не было.

Фотография Бена Эдвардса с гитарой, отредактированная GPT Image 1.5: добавлен улыбающийся мужчина

Большую часть истории фотографии убедительная подделка требовала навыков, времени и ресурсов. Эти барьеры делали фальсификацию достаточно редкой, чтобы мы могли рассматривать многие фотографии как разумный заменитель правды, хотя их можно было манипулировать (и часто это делалось). Эта эпоха закончилась из-за ИИ, но GPT Image 1.5, кажется, убирает еще больше оставшегося трения.

Возможность сохранять сходство лиц при редактировании имеет очевидную пользу для законного редактирования фотографий и столь же очевидный потенциал для злоупотреблений. Генераторы изображений уже использовались для создания недобровольных интимных образов и имитации реальных людей.

Крупный план фото с Галактической королевой, варваром и добавленным на диван ЭЛТ-монитором, созданный GPT Image 1.5 — Источник: www.arstechnica.com

С учетом этих рисков генераторы изображений OpenAI всегда включали фильтр, который обычно блокирует сексуальные или насильственные результаты. Но все еще возможно создавать компрометирующие изображения людей без их согласия (хотя это нарушает условия обслуживания OpenAI), избегая этих тем. Компания утверждает, что сгенерированные изображения содержат метаданные C2PA, идентифицирующие их как созданные ИИ, хотя эти данные можно удалить, пересохранив файл.

Новости

Новый ИИ-редактор изображений от OpenAI за несколько секунд может создавать фейковые фото

Погоня за Nano Banana

Единая архитектура для текста и изображений

Трение исчезает

Еще интереснее

Из-за утечки данных выяснилось, что Anthropic уже тестирует новую ИИ-модель Mythos

OpenAI закрывает проект Sora и разрывает партнерство с Disney — ради развития робототехники

Исследование показало, что галлюцинации — фундаментальное свойство LLM

Xiaomi выпустила MiMo-V2-Pro — недорогую ИИ-модель на 1 трлн параметров

Оставить комментарий