Оглавление
По данным Google Research, инженеры YouTube решили одну из ключевых проблем мобильного AI: как запускать сложные генеративные модели на смартфонах без задержек. Их решение — дистилляция знаний и оптимизация под конкретные задачи, что позволило запустить более 20 AI-эффектов в YouTube Shorts.
Проблема мобильных ограничений
Генеративные AI-модели вроде StyleGAN2 или Imagen от Google DeepMind традиционно требуют значительных вычислительных ресурсов. Для работы в реальном времени на мобильных устройствах инженерам пришлось разработать специальный пайплайн, который дистиллирует возможности большой модели в компактную, ориентированную на одну конкретную задачу.
Дистилляция знаний — это не просто сжатие модели, а скорее создание узкоспециализированного эксперта, который делает одну вещь идеально, но не тратит ресурсы на универсальность.
Архитектура учитель-ученик
Подход основан на концепции очистки знаний с использованием метода «учитель-ученик»:
- Учитель — большая предобученная генеративная модель (StyleGAN2, Imagen), создающая желаемый визуальный эффект
- Ученик — компактная модель на основе UNet-архитектуры с MobileNet backbone, которая работает на устройстве пользователя
Ключевой вызов: сохранение идентичности
Одна из самых сложных проблем в генеративных моделях для визуальных эффектов — сохранение личности пользователя. Наивный подход часто искажает ключевые черты, изменяя цвет кожи, очки или одежду.
Для решения этой проблемы используется техника инверсии опорной настройки (PTI):
- Исходное изображение преобразуется во встраиваемый код
- Генератор тонко настраивается с использованием PTI итерационного процесса
- Желаемый эффект применяется путем редактирования встроенных данных
- Финальное изображение генерируется с помощью настроенного генератора
Оптимизация для устройств с MediaPipe
После обучения студенческая модель интегрируется в пайплайн, который эффективно работает на телефоне с использованием MediaPipe — фреймворка для создания кроссплатформенных многомодальных ML-пайплайнов.
Этот подход демонстрирует, как можно адаптировать современные AI-технологии под реальные ограничения мобильных устройств, сохраняя при этом качество и скорость работы, необходимые для массового потребительского продукта.
Оставить комментарий