Оглавление
Исследователи Google разработали инновационный подход к созданию кастомных фотоальбомов с гарантиями индивидуальной приватности, используя промежуточное текстовое представление и иерархическую генерацию.
Новый подход к приватным данным
Дифференциальная приватность (DP) предоставляет строгие математические гарантии защиты конфиденциальной информации в наборах данных, даже когда эти данные используются для анализа. Однако необходимость приватизировать каждую аналитическую технику может быть сложной, обременительной и подверженной ошибкам.
Генеративные ИИ-модели, такие как Gemini, предлагают более простое и эффективное решение. Вместо отдельной модификации каждого метода анализа они создают единую приватную синтетическую версию исходного набора данных.
Подход с промежуточным текстовым представлением — это необычное решение, которое превращает проблему генерации изображений в проблему генерации текста, где языковые модели работают наиболее эффективно. При этом теряется часть деталей, но именно эта потеря и обеспечивает дополнительную приватность.
Как работает метод
Новый метод отличается от большинства других подходов к генерации приватных синтетических изображений двумя ключевыми особенностями: использованием промежуточного текстового представления и иерархической генерацией данных.
Процесс состоит из четырех этапов:
- Генерация структурированного текстового представления каждого исходного альбома — замена каждой фотографии в альбоме детальным текстовым описанием, сгенерированным ИИ, а также создание текстового резюме всего альбома.
- Приватное дообучение пары больших языковых моделей для создания аналогичных структурированных представлений.
- Иерархическая генерация структурированных представлений фотоальбомов — сначала создается резюме альбома, затем на его основе генерируются детальные описания каждой фотографии.
- Преобразование сгенерированных структурированных представлений в наборы изображений с помощью текстово-изобразительной ИИ-модели.
Преимущества текстового подхода
Генерация текста в качестве промежуточного шага для создания изображений имеет несколько существенных преимуществ:
- Текстовая генерация — основная сила больших языковых моделей
- Текстовое суммирование само по себе усиливает приватность, поскольку описание изображения текстом — это операция с потерей информации
- Генерация изображений значительно дороже текстовой генерации
Иерархическая стратегия генерации обеспечивает внутреннюю согласованность фотографий в каждом альбоме, поскольку каждое описание фотографии генерируется с одним и тем же контекстом резюме альбома.
Оценка результатов
Метод был протестирован на наборе данных YFCC100M, содержащем почти 100 миллионов изображений, выпущенных под лицензией Creative Commons. «Альбомы» формировались путем группировки фотографий, сделанных одним пользователем в течение одного часа.
После применения метода для генерации синтетических фотоальбомов исследователи оценили, насколько хорошо они напоминают оригинальные альбомы. Для этого использовался показатель MAUVE, основанный на нейронных эмбеддингах для измерения семантического сходства.
Этот подход открывает новые возможности для работы с приватными мультимодальными данными, где требуется сохранять тематическую согласованность и консистентность персонажей между несколькими изображениями в последовательном наборе.
По материалам Google Research.
Оставить комментарий