Google DeepMind раскрыла детали новой модели редактирования изображений под названием «nano banana», которая демонстрирует беспрецедентную консистентность при обработке фотографий. Модель, технически известная как Gemini 2.5 Flash Image, уже доступна в приложении Gemini и вскоре появится в API для разработчиков.
Что умеет новая модель
Ключевое преимущество nano banana — способность сохранять детали исходного изображения при многократных правках. В отличие от предыдущих генеративных моделей, которые могли непредсказуемо изменять элементы, новая система «запоминает» контекст и обеспечивает стабильный результат.
Среди практических применений Google выделяет:
- Изменение стиля одежды или внешнего вида человека на фото
- Трансформацию в различные образы (от матадора до персонажа сериала 90-х)
- Слияние нескольких изображений в новую композицию
Технические особенности
Модель поддерживает последовательное редактирование — даже после серии правок результат сохраняет сходство с исходным материалом. Как и другие генеративные системы Google, все изображения помечаются видимым водяным знаком «AI» и невидимым цифровым идентификатором SynthID.
Консистентность редактирования — именно тот рубеж, после которого генеративные модели перестают быть игрушкой и становятся профессиональным инструментом. Способность сохранять контекст через множество итераций открывает возможности для реальной работы с контентом, а не просто развлечения. Круто! Одобряем!
Новая модель уже доступна в приложении Gemini, а в ближайшее время появится в Gemini API, AI Studio и Vertex AI для разработчиков. По сообщению Google Blog, система уже показала лучшие результаты в тестах LMArena leaderboard.
Оставить комментарий