Оглавление

Исследователи Google разработали революционный подход к генерации изображений, превращающий процесс в диалог между пользователем и искусственным интеллектом. Система PASTA (Preference Adaptive and Sequential Text-to-image Agent) использует обучение с подкреплением для адаптации к индивидуальным предпочтениям пользователя в реальном времени.

Графики сравнения точности метрик модели PASTA
Источник: research.google.com

Как работает PASTA

Традиционные модели преобразования текста в изображение часто требуют многочисленных итераций и уточнений промптов для достижения желаемого результата. PASTA решает эту проблему через интерактивный процесс, где пользователь выбирает наиболее близкие варианты из предлагаемых поколений, а система учится на этих предпочтениях.

Технология основана на двухэтапной стратегии обучения:

  • Сбор реальных данных взаимодействия с более чем 7000 участников
  • Создание симулятора пользователя для генерации дополнительных тренировочных данных

Модель пользователя включает две ключевые компоненты: утилитарную модель, предсказывающую степень удовлетворенности пользователя изображениями, и модель выбора, предсказывающую, какие изображения будут выбраны из предложенных наборов.

Для обучения ИИ понимать человеческие предпочтения компаниям пришлось создать искусственных людей. Симулятор пользователя, идентифицирующий «типы пользователей» по их вкусам — это одновременно и гениально, и слегка пугающе. Особенно учитывая, что система научилась различать любителей животных, пейзажей и абстрактного искусства без явного указания этих категорий.

Архитектура и обучение

PASTA использует обучение с подкреплением на основе ценности с применением неявного Q-обучения. Агент обучается выбирать оптимальные наборы расширений промптов для показа пользователю на каждом шаге взаимодействия.

Процесс работы выглядит следующим образом:

  1. Пользователь вводит начальный промпт
  2. Кандидат-генератор (многомодальная модель Gemini Flash) создает разнообразные расширения промпта
  3. Кандидат-селектор (обученный RL агент) выбирает оптимальный набор из четырех расширений
  4. Генерируются соответствующие изображения с помощью Stable Diffusion XL
  5. Пользователь выбирает наиболее близкий вариант
  6. Процесс повторяется с учетом полученных предпочтений

Результаты тестирования

Исследователи сравнили три версии агента: обученную только на реальных данных, только на симулированных данных, и на комбинации обоих наборов. Тестирование проводилось по четырем метрикам:

Симулятор пользователя PASTA, определяющий различные типы пользователей и их предпочтения
Источник: research.google.com

Агент, обученный на комбинированных данных, показал наилучшие результаты, превзойдя базовые модели. В прямом сравнении конечных изображений 85% участников предпочли результаты PASTA.

По материалам Google Research