Оглавление

Исследователи Google представили технологию генеративного пользовательского интерфейса, способную создавать полноценные интерактивные веб-страницы, игры и приложения на основе любого текстового запроса. Новая система уже тестируется в приложении Gemini и поиске Google.

Что такое генеративный UI

Генеративный пользовательский интерфейс — это технология, при которой искусственный интеллект создаёт не только контент, но и целый пользовательский опыт. В отличие от статических, заранее определённых интерфейсов, система динамически генерирует иммерсивные визуальные впечатления и интерактивные интерфейсы, включая веб-страницы, игры, инструменты и приложения.

Как сообщает Google Research, эти интерфейсы автоматически проектируются и полностью кастомизируются в ответ на любой вопрос, инструкцию или промпт — от одного слова до подробных указаний.

Гонка за созданием идеального AI-помощника переходит на новый уровень — от генерации текста к генерации целых интерфейсов. Теперь вместо того, чтобы просто давать ответ, ИИ может создать для вас полноценное приложение под конкретную задачу. Интересно, сколько разработчиков интерфейсов эта технология оставит без работы в ближайшие пару лет.

Практическое применение в продуктах Google

Технология уже внедряется в виде двух экспериментов в приложении Gemini: динамическое представление и визуальная компоновка. Динамическое представление использует агентские кодинговые способности Gemini для создания полностью кастомизированных интерактивных ответов на каждый запрос.

Система понимает контекст и адаптирует интерфейс под конкретные нужды. Например, объяснение микробиома пятилетнему ребёнку требует совершенно другого подхода и набора функций, чем объяснение для взрослого, точно так же как галерея постов для бизнеса отличается от планировщика путешествий.

Коллаж с тремя ИИ-генеративными интерфейсами: советы по моде, обучение фракталам и математике
Источник: research.google.com

Динамическое представление охватывает широкий спектр сценариев:

Генеративный UI также интегрирован в Google Search через AI Mode, открывая динамические визуальные впечатления с интерактивными инструментами и симуляциями, созданными специально под запрос пользователя.

Техническая реализация

В основе реализации лежит модель Gemini 3 Pro с тремя ключевыми дополнениями:

  1. Доступ к инструментам: сервер предоставляет доступ к ключевым инструментам вроде генерации изображений и веб-поиска
  2. Тщательно проработанные системные инструкции: система руководствуется детальными указаниями, включающими цель, планирование, примеры и технические спецификации
  3. Постобработка: выходные данные модели проходят через набор пост-процессоров для устранения потенциальных проблем
Блок-схема процесса создания генеративного интерфейса от пользовательского запроса до HTML/CSS/JS кода
Источник: research.google.com

Для продуктов, требующих единообразия стиля, система может быть настроена на создание всех результатов в согласованном стиле для всех пользователей. Без специфических инструкций по стилю генеративный UI выбирает стиль автоматически, либо пользователь может влиять на стилизацию через свой промпт.

Три концепции веб-дизайна в бирюзовой цветовой гамме с единым стилем Wizard Green
Источник: research.google.com

Пользовательские предпочтения

Для объективной оценки исследователи создали PAGEN — датасет веб-сайтов, созданных экспертами-людьми, который скоро будет опубликован для научного сообщества.

Оценки пользовательских предпочтений показали, что сайты, спроектированные экспертами-людьми, имеют наивысшие показатели предпочтения. За ними следуют результаты реализации генеративного UI, с существенным отрывом от всех других методов вывода. Важно отметить, что эта оценка не учитывала скорость генерации.

Исследование также демонстрирует, что производительность генеративного UI сильно зависит от производительности базовой модели, причём новейшие модели показывают значительно лучшие результаты.