Оглавление

Корпорация Google представила две новые модели генеративного искусственного интеллекта, нацеленные на высокую скорость работы и оптимизацию затрат для разработчиков. Как сообщает издание The Decoder, новая модель Nano Banana 2 Lite позволяет генерировать изображения всего за четыре секунды, а Gemini Omni Flash открывает доступ к созданию и редактированию видео через программный интерфейс.

Стратегия Google в данном обновлении прослеживается достаточно четко: компания стремится закрыть потребность в инструментах для быстрого прототипирования и высокопроизводительных конвейеров. Предложенная схема работы подразумевает связку моделей, где одна создает статичный кадр, а вторая «оживляет» его, превращая в короткий видеоряд, что выглядит вполне логичным шагом для автоматизации e-commerce и рекламных процессов.

Nano Banana 2 Lite: экономика быстрых пикселей

Модель Nano Banana 2 Lite, фигурирующая в API под техническим названием gemini-3.1-flash-lite-image, позиционируется как наиболее доступное решение в линейке. При стоимости $0.034 за изображение в разрешении 1K она оказывается вдвое дешевле стандартной версии Nano Banana 2. Несмотря на акцент на скорость, разработчики заявляют о сохранении высокого качества рендеринга текста и консистентности персонажей.

В текущей иерархии Google предлагает разработчикам три уровня инструментов в зависимости от задач:

  • Nano Banana 2 Lite — для задач, требующих минимальной задержки и массовой генерации при низком бюджете;
  • Nano Banana 2 — сбалансированное решение, сочетающее качество и умеренную стоимость;
  • Nano Banana Pro — флагманская модель для сложных профессиональных сценариев, где важна точность следования сложным промптам.

Интересно, что Google уже интегрирует облегченную модель в свои потребительские сервисы. В ближайшее время Nano Banana 2 Lite станет основой для функций ИИ в поиске, приложении Gemini, Google Photos и рекламной платформе Google Ads, заменяя собой устаревшие итерации на базе Gemini 2.5.

Gemini Omni Flash: видеопродакшн через API

Вторым значимым анонсом стал запуск Gemini Omni Flash — модели, которая объединяет мультимодальные рассуждения Gemini с возможностями генерации видео. Инструмент позволяет создавать десятисекундные ролики по текстовому описанию, а также редактировать их с помощью естественного языка. Стоимость генерации установлена на уровне $0.10 за секунду готового видео.

Запуск Gemini Omni Flash — это попытка Google демократизировать видеопроизводство, но пока мы видим скорее черновик будущего. Ограничение в десять секунд и отсутствие поддержки аудиодорожек делают модель инструментом для создания анимированных баннеров, а не полноценного контента. Главная ценность здесь в интеграции с API: возможность программно «подкрутить» освещение или заменить объект в кадре через промпт экономит часы ручного труда, даже если результат пока требует осторожной доработки.

На данный момент технология имеет ряд ограничений, которые разработчикам придется учитывать при проектировании своих систем. Модель пока не справляется с сохранением идентичности персонажей при резкой смене ракурсов или движении камеры, а функции расширения сцен и работа с аудиореференсами в API временно недоступны.

Синергия моделей и практическое применение

Google активно продвигает идею «цепочек» (chaining), предлагая использовать Nano Banana 2 Lite для создания референсного изображения, которое затем передается в Gemini Omni Flash для анимации. Для упрощения этого процесса используется Interactions API, который сохраняет историю сессии и контекст, позволяя вносить до трех последовательных правок в созданный контент.

Для демонстрации возможностей этой связки Google представила три пилотных приложения:

  • Anywhere — сервис для создания селфи на фоне известных достопримечательностей с последующей анимацией;
  • Space Lift — инструмент для дизайнеров интерьеров, превращающий фотографии комнат в видеовизуализации концептов;
  • Omni Product Studio — платформа для e-commerce, генерирующая рекламные ролики из статичных фотографий товаров.

Стоит отметить, что весь контент, созданный новыми моделями, автоматически маркируется водяными знаками SynthID. Это позволяет идентифицировать происхождение изображений и видео через инструменты Google. Обе модели уже доступны для тестирования в Google AI Studio и через корпоративную платформу Gemini Enterprise.