Оглавление

По данным Google Research, инженеры YouTube решили одну из ключевых проблем мобильного AI: как запускать сложные генеративные модели на смартфонах без задержек. Их решение — дистилляция знаний и оптимизация под конкретные задачи, что позволило запустить более 20 AI-эффектов в YouTube Shorts.

Проблема мобильных ограничений

Генеративные AI-модели вроде StyleGAN2 или Imagen от Google DeepMind традиционно требуют значительных вычислительных ресурсов. Для работы в реальном времени на мобильных устройствах инженерам пришлось разработать специальный пайплайн, который дистиллирует возможности большой модели в компактную, ориентированную на одну конкретную задачу.

Дистилляция знаний — это не просто сжатие модели, а скорее создание узкоспециализированного эксперта, который делает одну вещь идеально, но не тратит ресурсы на универсальность.

Архитектура учитель-ученик

Подход основан на концепции очистки знаний с использованием метода «учитель-ученик»:

  • Учитель — большая предобученная генеративная модель (StyleGAN2, Imagen), создающая желаемый визуальный эффект
  • Ученик — компактная модель на основе UNet-архитектуры с MobileNet backbone, которая работает на устройстве пользователя

Ключевой вызов: сохранение идентичности

Одна из самых сложных проблем в генеративных моделях для визуальных эффектов — сохранение личности пользователя. Наивный подход часто искажает ключевые черты, изменяя цвет кожи, очки или одежду.

Для решения этой проблемы используется техника инверсии опорной настройки (PTI):

  1. Исходное изображение преобразуется во встраиваемый код
  2. Генератор тонко настраивается с использованием PTI итерационного процесса
  3. Желаемый эффект применяется путем редактирования встроенных данных
  4. Финальное изображение генерируется с помощью настроенного генератора

Оптимизация для устройств с MediaPipe

После обучения студенческая модель интегрируется в пайплайн, который эффективно работает на телефоне с использованием MediaPipe — фреймворка для создания кроссплатформенных многомодальных ML-пайплайнов.

Этот подход демонстрирует, как можно адаптировать современные AI-технологии под реальные ограничения мобильных устройств, сохраняя при этом качество и скорость работы, необходимые для массового потребительского продукта.