Оглавление

Исследователи Google разработали инновационный фреймворк Sensible Agent, который кардинально меняет парадигму взаимодействия с дополненной реальностью. Вместо громоздких голосовых команд система использует многомодальное восприятие контекста, жесты и взгляд для незаметного предоставления помощи.

Обзор фреймворка Sensible Agent для AR-ассистентов от Google
Источник: research.google.com

Проблема современных AR-ассистентов

Современные проактивные ассистенты, такие как Project Astra, демонстрируют впечатляющий потенциал интеллектуальной помощи в очках дополненной реальности. Однако они остаются ограниченными необходимостью явных голосовых команд, что часто бывает неудобно в социальных ситуациях, когнитивно затратно или просто непрактично.

Архитектура Sensible Agent

Фреймворк состоит из двух взаимосвязанных модулей: для понимания «что» нужно помочь и определения «как» лучше это сделать. Система использует эгоцентричные камеры и анализ окружающего контекста для упреждающего определения потребностей пользователя.

Ирония в том, что мы создаем все более умных ассистентов, которые остаются глухи к социальному контексту. Sensible Agent — первая серьезная попытка научить ИИ не только понимать что сказать, но и когда молчать и как незаметно помочь.

Ключевые компоненты системы

  • Анализатор контекста: использует vision-language модель и аудиоклассификатор YAMNet для понимания сцены
  • Генератор упреждающих запросов: определяет наиболее полезное действие с помощью chain-of-thought reasoning
  • Модуль взаимодействия: управляет выводом и вводом через жесты, взгляд и минимальные визуальные подсказки
  • Генератор ответов: формулирует естественный ответ и преобразует его в аудио
Диаграмма архитектуры системы Sensible Agent от Google для AR-ассистентов
Источник: research.google.com

Результаты пользовательского исследования

В исследовании с участием 10 испытуемых сравнивали Sensible Agent с традиционным голосовым ассистентом. Участники выполняли 12 реалистичных сценариев в шести повседневных активностях:

  • Чтение меню ресторана
  • Поездка на общественном транспорте
  • Покупки в магазине
  • Посещение музея
  • Тренировка в спортзале
  • Приготовление пищи на кухне

Результаты показали, что Sensible Agent значительно снижает когнитивную нагрузку и социальную неловкость по сравнению с голосовым управлением.

Этот фреймворк представляет собой важный шаг к созданию по-настоящему интегрированных AR-систем, которые уважают контекст пользователя и минимизируют нарушение.

По материалам Google Research.