Оглавление

Технологический гигант Cloudflare перевел свою AI-систему автоматического кадрирования изображений по лицам из бета-версии в полноценный продукт. Решение использует сверточные нейросети для обнаружения лиц и интеллектуального кадрирования, что особенно востребовано в соцсетях и e-commerce.

От прототипа к промышленному решению

Изначально разработанная на CPU архитектура столкнулась с проблемами масштабирования, включая утечки памяти. Команда мигрировала решение на GPU через Workers AI, что позволило обеспечить стабильную работу при высоких нагрузках.

Женщина в черном кардигане стоит рядом с розовыми цветами
Источник: blog.cloudflare.com

Как сообщает Cloudflare, функция уже обрабатывает более 45 миллионов преобразований в месяц для одного только чатбот-платформы.

Ключевые сценарии применения

Система ориентирована на два основных сегмента:

  • Социальные сети и AI-чатботы: автоматическое создание аватарок и профильных изображений
  • E-commerce: интеллектуальное кадрирование товарных фото для разных форматов отображения
Розовый цветок демонстрирует параметр гравитации для смещенных объектов

Источник: blog.cloudflare.com

Технология позволяет динамически генерировать оптимизированные версии изображений без необходимости хранить múltiples копий — только оригинал.

Техническая реализация

Для кадрирования используется параметр gravity=face в API Images. Дополнительный параметр zoom контролирует степень приближения к лицу.

Иллюстрация технологии обнаружения лиц для автоматического кадрирования изображений
Источник: blog.cloudflare.com

Архитектурно система построена на открытой модели RetinaFace — сверточной нейросети, специализирующейся на обнаружении лиц. Модель показала точность 99.4% на benchmark-наборе WIDERFACE, содержащем 393,703 размеченных лиц.

Мужчина в солнцезащитных очках демонстрирует продукт для электронной коммерции

Источник: blog.cloudflare.com

При выборе модели инженеры оценивали:

  • Производительность (кадры в секунду)
  • Размер модели
  • Качество детекции
  • Соответствие промышленным требованиям

Принципы работы нейросети

Сверточные нейросети (CNN) обрабатывают изображения иерархически: от простых признаков вроде границ и цветов к сложным features, составляющим человеческое лицо.

Диаграмма полностью связанного слоя нейронной сети для AI-кадрирования изображений
Источник: blog.cloudflare.com

Выбор RetinaFace вместо двухэтапных детекторов вроде R-CNN — прагматичное решение. В продакшн-системах скорость часто важнее абсолютной точности, особенно когда речь о миллионах запросов в месяц. Важно и то, что Cloudflare сознательно ограничилась только детекцией лиц без распознавания — это разумный компромисс между функциональностью и приватностью.

Тестирование проводилось на 500 изображениях с вариациями освещения, углов, размера лиц и количества людей в кадре. Однопроходные детекторы (RetinaFace, YOLO) показали лучшее соотношение скорости и точности по сравнению с двухэтапными подходами.