Оглавление

Компания Google представила прототип StreetReaderAI — систему доступного просмотра улиц с использованием контекстно-ориентированного мультимодального искусственного интеллекта. Технология позволяет незрячим и слабовидящим пользователям получать подробные описания окружающей обстановки и взаимодействовать с виртуальным пространством через голосовые команды.

Новый подход к доступности картографических сервисов

Интерактивные инструменты просмотра улиц, доступные сегодня в каждом крупном картографическом сервисе, произвели революцию в том, как люди виртуально ориентируются и исследуют мир. Однако до сих пор программы чтения с экрана не могли интерпретировать изображения уличных панорам, а альтернативный текст был недоступен.

StreetReaderAI представляет собой концептуальный прототип доступного просмотра улиц, который использует контекстно-ориентированный искусственный интеллект в реальном времени и доступные элементы управления навигацией. Система была разработана итеративно командой исследователей доступности, включая незрячих специалистов, опираясь на предыдущие работы в области доступных игр от первого лица и навигационных инструментов, таких как Shades of Doom, BlindSquare и SoundScape.

Ключевые возможности включают:

  • Генерацию описаний близлежащих дорог, перекрестков и мест в реальном времени
  • Динамическое взаимодействие с мультимодальным агентом ИИ о сценах и местной географии
  • Доступное панорамирование и перемещение между изображениями с использованием голосовых команд или сочетаний клавиш
Схема архитектуры ИИ-описателя StreetReaderAI от Google
Источник: research.google.com

StreetReaderAI предоставляет контекстно-ориентированное описание сцены уличного обзора, вводя источники географической информации и текущее поле зрения пользователя в Gemini. Сервис использует Gemini Live для обеспечения интерактивного общения в реальном времени о сцене и местных географических особенностях.

StreetReaderAI предлагает захватывающий опыт исследования от первого лица, подобно видеоигре, где звук является основным интерфейсом.

Система обеспечивает плавную навигацию как через клавиатуру, так и через голосовое взаимодействие. Пользователи могут исследовать окрестности, используя клавиши со стрелками влево и вправо для изменения обзора. При панорамировании StreetReaderAI предоставляет аудиообратную связь, озвучивая текущее направление как основное или промежуточное направление (например, «Сейчас смотрю: Север» или «Северо-восток»). Он также сообщает, может ли пользователь двигаться вперед и смотрит ли он в настоящее время на близлежащую достопримечательность или место.

Для перемещения пользователь может делать «виртуальные шаги» с помощью клавиши со стрелкой вверх или двигаться назад с помощью клавиши со стрелкой вниз. Когда пользователь перемещается по виртуальному уличному ландшафту, StreetReaderAI описывает, как далеко пользователь прошел, и ключевую географическую информацию, такую как близлежащие места. Пользователи также могут использовать функции «прыжка» или «телепортации» для быстрого перемещения в новые места.

Как StreetReaderAI служит виртуальным гидом

Основой StreetReaderAI являются две подсистемы искусственного интеллекта на базе Gemini: AI Describer и AI Chat. Обе подсистемы принимают статический промпт и дополнительный профиль пользователя, а также динамическую информацию о текущем местоположении пользователя, такую как близлежащие места, информация о дорогах и текущее изображение поля зрения (то есть то, что показывается в Street View).

AI Describer

AI Describer функционирует как контекстно-ориентированный инструмент описания сцен, который объединяет динамическую географическую информацию о виртуальном местоположении пользователя вместе с анализом текущего изображения Street View для генерации аудиоописания в реальном времени.

Он имеет два режима: «стандартный» промпт, ориентированный на навигацию и безопасность для незрячих пешеходов, и промпт «гида», который предоставляет дополнительную туристическую информацию (например, исторический и архитектурный контекст). Также используется Gemini для прогнозирования вероятных дополнительных вопросов, относящихся к текущей сцене и местной географии, которые могут представлять интерес для незрячих или слабовидящих путешественников.

Диаграмма того, как AI Describer объединяет мультимодальные данные для поддержки контекстно-ориентированных описаний сцен.

AI Chat

AI Chat расширяет возможности AI Describer, позволяя пользователям задавать вопросы о своем текущем обзоре, прошлых обзорах и близлежащей географии. Чат-агент использует Google’s Multimodal Live API, который поддерживает взаимодействие в реальном времени, вызов функций и временно сохраняет память обо всех взаимодействиях в рамках одной сессии. Отслеживается и отправляется каждое взаимодействие панорамирования или перемещения вместе с текущим обзором пользователя и географическим контекстом (например, близлежащие места, текущее направление).

Что делает AI Chat таким мощным, так это его способность сохранять временную «память» о сессии пользователя — контекстное окно установлено максимум на 1 048 576 входных токенов, что примерно эквивалентно более чем 4K входным изображениям. Поскольку AI Chat получает обзор и местоположение пользователя с каждым виртуальным шагом, он собирает информацию о местоположении и контексте пользователя. Пользователь может виртуально пройти мимо автобусной остановки, повернуть за угол, а затем спросить: «Подождите, где была та автобусная остановка?» Агент может вспомнить свой предыдущий контекст, проанализировать текущие географические данные и ответить: «Автобусная остановка позади вас, примерно в 12 метрах».

Тестирование StreetReaderAI с незрячими пользователями

Для оценки StreetReaderAI была проведена лабораторная исследование с участием одиннадцати незрячих пользователей программ чтения с экрана. Во время сессий участники узнали о StreetReaderAI и использовали его для изучения нескольких мест и оценки потенциальных пешеходных маршрутов к пунктам назначения.

Незрячий участник использует StreetReaderAI для исследования потенциальной поездки к автобусной остановке и запроса о характеристиках автобусной остановки, таких как наличие скамеек и навеса. Для полного аудиовизуального опыта, включая звук, обратитесь к этому видео на YouTube.

В целом участники положительно отреагировали на StreetReaderAI, оценив общую полезность в 6,4 (медиана=7; SD=0,9) по шкале Лайкерта от 1 до 7 (где 1 означало «совсем не полезно», а 7 — «очень полезно»), подчеркнув взаимодействие между виртуальной навигацией и ИИ, бесшовность интерактивного интерфейса AI Chat и ценность предоставляемой информации. Качественные отзывы участников последовательно подчеркивали значительный прогресс StreetReaderAI в доступности для навигации, отмечая, что существующие инструменты просмотра улиц не имеют такого уровня доступности. Интерактивная функция AI Chat также была описана как делающая разговоры об улицах и местах одновременно увлекательными и полезными.

Во время исследования участники посетили более 350 панорам и сделали более 1000 запросов к ИИ. Интересно, что AI Chat использовался в шесть раз чаще, чем AI Describer, что указывает на явное предпочтение персонализированных, разговорных запросов. Хотя участники нашли ценность в StreetReaderAI и умело сочетали навигацию в виртуальном мире с взаимодействиями с ИИ, есть возможности для улучшения: участники иногда испытывали трудности с правильной ориентацией, различением достоверности ответов ИИ и определением пределов знаний ИИ.

В одном из заданий исследования участникам была дана инструкция: «Узнайте о незнакомой игровой площадке, чтобы спланировать поездку с вашими двумя маленькими племянницами». Этот видеоклип иллюстрирует…

Технологически впечатляющий проект, но есть ощутимый разрыв между лабораторными тестами и реальным применением. То, что работает с одиннадцатью участниками в контролируемых условиях, может столкнуться с непредсказуемостью реального мира — изменчивой погодой, нестандартной архитектурой, культурными особенностями локаций. Особенно настораживает статистика, что пользователи испытывали трудности с «определением пределов знаний ИИ» — это классическая проблема современных языковых моделей, которая в контексте навигации для незрячих может иметь серьезные последствия.

По материалам Google Research.