Как YouTube сжимает AI-модели для мобильных эффектов

YouTube использует дистилляцию знаний для запуска генеративных AI-эффектов на мобильных устройствах в реальном времени, преодолевая вычислительные ограничения.

Оглавление

Проблема мобильных ограничений
Архитектура учитель-ученик
Ключевой вызов: сохранение идентичности
Оптимизация для устройств с MediaPipe

По данным Google Research, инженеры YouTube решили одну из ключевых проблем мобильного AI: как запускать сложные генеративные модели на смартфонах без задержек. Их решение — дистилляция знаний и оптимизация под конкретные задачи, что позволило запустить более 20 AI-эффектов в YouTube Shorts.

Проблема мобильных ограничений

Генеративные AI-модели вроде StyleGAN2 или Imagen от Google DeepMind традиционно требуют значительных вычислительных ресурсов. Для работы в реальном времени на мобильных устройствах инженерам пришлось разработать специальный пайплайн, который дистиллирует возможности большой модели в компактную, ориентированную на одну конкретную задачу.

Дистилляция знаний — это не просто сжатие модели, а скорее создание узкоспециализированного эксперта, который делает одну вещь идеально, но не тратит ресурсы на универсальность.

Архитектура учитель-ученик

Подход основан на концепции очистки знаний с использованием метода «учитель-ученик»:

Учитель — большая предобученная генеративная модель (StyleGAN2, Imagen), создающая желаемый визуальный эффект
Ученик — компактная модель на основе UNet-архитектуры с MobileNet backbone, которая работает на устройстве пользователя

Ключевой вызов: сохранение идентичности

Одна из самых сложных проблем в генеративных моделях для визуальных эффектов — сохранение личности пользователя. Наивный подход часто искажает ключевые черты, изменяя цвет кожи, очки или одежду.

Для решения этой проблемы используется техника инверсии опорной настройки (PTI):

Исходное изображение преобразуется во встраиваемый код
Генератор тонко настраивается с использованием PTI итерационного процесса
Желаемый эффект применяется путем редактирования встроенных данных
Финальное изображение генерируется с помощью настроенного генератора

Оптимизация для устройств с MediaPipe

После обучения студенческая модель интегрируется в пайплайн, который эффективно работает на телефоне с использованием MediaPipe — фреймворка для создания кроссплатформенных многомодальных ML-пайплайнов.

Этот подход демонстрирует, как можно адаптировать современные AI-технологии под реальные ограничения мобильных устройств, сохраняя при этом качество и скорость работы, необходимые для массового потребительского продукта.

Новости

Как YouTube сжимает большие AI-модели для мобильных эффектов в реальном времени

Проблема мобильных ограничений

Архитектура учитель-ученик

Ключевой вызов: сохранение идентичности

Оптимизация для устройств с MediaPipe

Еще интереснее

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

7 причин, по которым 2026 год станет переломным для компаний, созданных на ИИ-архитектуре

Оставить комментарий