Оглавление
Исследователи Google разработали инновационный фреймворк Sensible Agent, который кардинально меняет парадигму взаимодействия с дополненной реальностью. Вместо громоздких голосовых команд система использует многомодальное восприятие контекста, жесты и взгляд для незаметного предоставления помощи.

Проблема современных AR-ассистентов
Современные проактивные ассистенты, такие как Project Astra, демонстрируют впечатляющий потенциал интеллектуальной помощи в очках дополненной реальности. Однако они остаются ограниченными необходимостью явных голосовых команд, что часто бывает неудобно в социальных ситуациях, когнитивно затратно или просто непрактично.
Архитектура Sensible Agent
Фреймворк состоит из двух взаимосвязанных модулей: для понимания «что» нужно помочь и определения «как» лучше это сделать. Система использует эгоцентричные камеры и анализ окружающего контекста для упреждающего определения потребностей пользователя.
Ирония в том, что мы создаем все более умных ассистентов, которые остаются глухи к социальному контексту. Sensible Agent — первая серьезная попытка научить ИИ не только понимать что сказать, но и когда молчать и как незаметно помочь.
Ключевые компоненты системы
- Анализатор контекста: использует vision-language модель и аудиоклассификатор YAMNet для понимания сцены
- Генератор упреждающих запросов: определяет наиболее полезное действие с помощью chain-of-thought reasoning
- Модуль взаимодействия: управляет выводом и вводом через жесты, взгляд и минимальные визуальные подсказки
- Генератор ответов: формулирует естественный ответ и преобразует его в аудио

Результаты пользовательского исследования
В исследовании с участием 10 испытуемых сравнивали Sensible Agent с традиционным голосовым ассистентом. Участники выполняли 12 реалистичных сценариев в шести повседневных активностях:
- Чтение меню ресторана
- Поездка на общественном транспорте
- Покупки в магазине
- Посещение музея
- Тренировка в спортзале
- Приготовление пищи на кухне
Результаты показали, что Sensible Agent значительно снижает когнитивную нагрузку и социальную неловкость по сравнению с голосовым управлением.
Этот фреймворк представляет собой важный шаг к созданию по-настоящему интегрированных AR-систем, которые уважают контекст пользователя и минимизируют нарушение.
По материалам Google Research.
Оставить комментарий