Корпорация Google официально закрепила статус Interactions API как основного интерфейса для работы с моделями и агентами семейства Gemini. Как сообщает профильное издание The Decoder, этот программный интерфейс, находившийся в режиме бета-тестирования с конца 2025 года, теперь становится стандартом де-факто, заменяя привычный многим разработчикам метод generateContent.

Переход на новый стандарт уже отражен в технической документации Google AI Studio. Хотя старые методы интеграции пока сохраняют работоспособность, Google дает понять, что все будущие функции, ориентированные на автономных агентов, будут внедряться исключительно через Interactions API. Логан Килпатрик, отвечающий в компании за связи с разработчиками, подчеркнул, что это обновление закладывает фундамент для нового этапа развития ИИ-систем.

Для тех, кто привык к классической схеме взаимодействия с LLM через роли «user» и «model», изменения могут показаться существенными. В обновленном Interactions API структура диалога уступила место концепции типизированных шагов. Теперь каждое действие — будь то ввод данных пользователем или вызов внешней функции — фиксируется как отдельный, строго определенный шаг, что упрощает управление сложными цепочками рассуждений.

Разработчикам предстоит адаптироваться к новой логике, для чего компания уже опубликовала руководство по миграции. Помимо структурных изменений, Google внедрила два режима работы: Flex и Priority. Первый позволяет снизить затраты на инференс до 50%, что выглядит заманчиво для масштабных проектов, в то время как второй отдает приоритет скорости отклика, необходимой для интерактивных приложений.

Переход к архитектуре на основе шагов вместо простых диалоговых ролей — это признание того, что современные агенты переросли формат чат-ботов. Однако привязка новых функций исключительно к Interactions API выглядит как мягкое принуждение к экосистеме Google. Хотя снижение стоимости в режиме Flex радует, реальная эффективность управляемых агентов в закрытых песочницах всё еще ограничена задержками при tool chaining, что делает «эру агентов» скорее перспективным черновиком, чем готовым решением.

Функциональное наполнение обновленного API впечатляет разнообразием инструментов, которые теперь доступны «из коробки». В частности, появились управляемые агенты, функционирующие в собственной изолированной среде Linux. Это позволяет ИИ безопасно исполнять код, не ставя под угрозу основную систему, что раньше требовало от разработчиков создания собственных сложных надстроек.

Список возможностей дополняют фоновое выполнение длительных задач и глубокая интеграция с сервисами Google. Теперь агенты могут выстраивать цепочки инструментов, задействуя Google Поиск и Карты для получения актуальных данных, а также генерировать мультимедийный контент, включая изображения, музыку и синтезированную речь, непосредственно в рамках рабочего процесса.

Интересно наблюдать, как Google пытается стандартизировать то, что еще вчера казалось хаотичным набором экспериментов. На смену простым текстовым ответам приходят многослойные процессы, где ИИ берет на себя роль диспетчера. Остается лишь надеяться, что за упрощением схем и снижением цен не скроется та самая гибкость, за которую разработчики изначально полюбили открытые интерфейсы.