Google расширяет визуальный поиск в AI Mode с Gemini 2.5

Google запускает визуальный поиск в AI Mode на базе Gemini 2.5, позволяющий искать изображения естественным языком и революционизирующий онлайн-шопинг без фильтров.

Оглавление

Технологическая основа обновления
Революция в шопинге без фильтров
Конкурентная гонка и будущие планы

По сообщению The Decoder, Google запускает масштабное обновление своего AI Mode с акцентом на визуальный поиск и мультимодальные возможности. Новая система позволяет пользователям искать изображения с помощью естественного языка, загружать фотографии для анализа и уточнять результаты через диалоговые запросы.

Технологическая основа обновления

В основе нововведений лежит мультимодальная архитектура Gemini 2.5, которая обрабатывает одновременно изображения и текст. Google внедрила метод «визуального поиска с разветвлением» (visual search fan-out), при котором система запускает несколько фоновых поисковых запросов параллельно для получения более детализированных результатов.

Технология способна распознавать как основные объекты на изображениях, так и мелкие детали, анализируя визуальный контекст через множественные параллельные поисковые операции. Каждый найденный образец сохраняется с ссылкой на оригинальный источник.

Диаграмма, показывающая процесс технологии визуального фан-аута Google

Революция в шопинге без фильтров

Одним из ключевых применений новой системы стал шопинг. Вместо традиционных фильтров пользователи могут описывать искомые товары простым языком. Например, запрос «джинсы-бочонок, но не слишком широкие» сразу показывает покупаемые варианты, которые можно дополнительно уточнять: «покажи варианты до щиколотки».

На мобильных устройствах доступен поиск внутри конкретного изображения. Технология работает на базе Shopping Graph, который отслеживает более 50 миллиардов товарных позиций и обновляет свыше 2 миллиардов записей ежечасно.

Конкурентная гонка и будущие планы

Новый визуальный AI Mode запускается на этой неделе в США с поддержкой английского языка. Параллельно Google добавляет платные функции: Gemini 2.5 Pro, Deep Search и инструмент автоматизированных звонков в местные бизнесы.

Интересно наблюдать, как технологические гиганты превращают поиск в диалоговый интерфейс. Визуальный поиск от Google выглядит впечатляюще, но настоящая битва развернется за монетизацию — кто сможет эффективнее превратить естественные запросы в реальные покупки. Пока что это напоминает гонку вооружений, где каждый добавляет функции, но монетизационная модель еще не очевидна.

Ранее на I/O 2025 Google анонсировала агентские функции и персонализированные результаты в рамках Project Mariner, который позволит ИИ выполнять задачи бронирования билетов и предлагать инструменты виртуальной примерки одежды.

Конкуренция обостряется: OpenAI недавно запустила функцию оплаты покупок в ChatGPT, позволяющую совершать мгновенные покупки в чате, начиная с Etsy и более миллиона магазинов Shopify. Совместно со Stripe разработан открытый Agentic Commerce Protocol для шопинга внутри чат-интерфейсов.

Новости

Google расширяет визуальный поиск в AI Mode с помощью Gemini 2.5

Технологическая основа обновления

Революция в шопинге без фильтров

Конкурентная гонка и будущие планы

Еще интереснее

Xiaomi выпустила MiMo-V2-Pro — недорогую ИИ-модель на 1 трлн параметров

Nvidia представила технологию KVTC с 20-кратным сжатием памяти для открытых LLM

Японская корпорация Rakuten выпустила новую модель Rakuten AI 3.0 под открытой лицензией

Perplexity запускает интеллектуальный маршрутизатор — систему Computer for Enterprise

Оставить комментарий