Google представила Gemini Omni: генерация и правка видео

Google анонсировала Gemini Omni — мультимодальную модель, способную создавать и редактировать видео на основе текста, аудио и изображений.

Оглавление

Редактирование видео через диалог
Физика и мировые знания в основе генерации
Безопасность и доступность инструментов

Компания Google анонсировала запуск Gemini Omni — новой мультимодальной модели, способной обрабатывать любые комбинации входных данных для создания высококачественного контента. Как сообщает официальный блог Google, первой доступной моделью в этом семействе стала Gemini Omni Flash, которая уже начинает появляться в приложении Gemini, Google Flow и YouTube Shorts.

Разработка Omni знаменует переход от простых генераторов изображений к глубокому пониманию динамических сцен. Если прошлогодние модели семейства Nano Banana фокусировались на редактировании статичных фото, то новая архитектура изначально строилась как нативно мультимодальная. Это позволяет системе не просто сопоставлять паттерны, но и рассуждать о физике, контексте и логике происходящего в кадре.

Редактирование видео через диалог

Одной из ключевых особенностей Omni является возможность изменять видео с помощью естественного языка. Процесс напоминает общение с монтажером: каждая последующая команда наслаивается на предыдущую, сохраняя при этом консистентность персонажей и окружения. Система удерживает контекст всей сцены, что позволяет избегать типичных для нейросетей визуальных артефактов при смене ракурсов.

Для реализации творческих задач пользователи могут применять различные подходы к промптингу. Например, можно трансформировать объекты, используя запрос: «Сделай эту скульптуру из мыльных пузырей». Или полностью переосмыслить действие, указав: «Когда человек касается зеркала, пусть оно пойдет рябью, как жидкость, а рука превратится в зеркальный металл». Модель понимает сложные инструкции, включающие изменение освещения, добавление рекурсивных элементов и динамическое движение камеры.

Физика и мировые знания в основе генерации

В отличие от многих существующих решений, Gemini Omni опирается на базу знаний Google о реальном мире. Это проявляется в улучшенном понимании физических сил: гравитации, кинетической энергии и динамики жидкостей. Видео с катящимся по сложной трассе шариком выглядит убедительно не потому, что модель «видела» похожие ролики, а благодаря интуитивному расчету траекторий.

Мультимодальность модели позволяет комбинировать текст, изображения и аудио для создания единого результата. В текущей итерации поддерживаются голосовые референсы для синхронизации видеоряда с ритмом музыки. Это открывает путь к автоматическому созданию клипов, где визуальные эффекты — например, свечение элементов скафандра астронавта — четко попадают в бит аудиодорожки.

Пока Google заигрывает с пользовательским креативом, фундаментальная проблема галлюцинаций в сложной динамике остается лишь замаскированной. Это изящный инструмент для Shorts, но до полноценного автономного видеопроизводства модели все еще не хватает предсказуемости результата.

Безопасность и доступность инструментов

Вопрос этики при создании контента остается для Google приоритетным. Все видеоматериалы, сгенерированные с помощью Omni, содержат невидимые цифровые водяные знаки SynthID. Эта технология позволяет идентифицировать ИИ-происхождение контента через поиск Google или Chrome. Кроме того, компания ограничивает возможности создания цифровых аватаров: на старте пользователи смогут генерировать видео только со своим собственным голосом и внешностью.

На текущий момент доступ к Gemini Omni Flash открыт для подписчиков планов Google AI Plus, Pro и Ultra. Пользователи YouTube Shorts и приложения YouTube Create смогут опробовать инструменты бесплатно уже на этой неделе. В ближайшее время Google планирует предоставить доступ к API для разработчиков и корпоративных клиентов, что позволит интегрировать возможности Omni в сторонние профессиональные сервисы.

Новости

Google представляет Gemini Omni: новая эра мультимодальной генерации видео

Редактирование видео через диалог

Физика и мировые знания в основе генерации

Безопасность и доступность инструментов

Еще интереснее

Стоимость генерации в GPT-5.6 может отличаться в разы из-за 3 моделей и уровней мышления

Новая GPT-5.6 Sol демонстрирует производительность Claude Fable 5 за треть от его стоимости

Meta* представила модель Muse Spark 1.1, оптимизированную под агентов

xAI представила Grok 4.5 — модель уровня GPT 5.5, но в разы дешевле

Оставить комментарий