Оглавление

Стартап Raindrop, специализирующийся на мониторинге AI-приложений, представил Experiments — первую платформу для A/B тестирования корпоративных AI-агентов. Новый инструмент позволяет компаниям сравнивать, как обновления моделей, изменение инструкций или доступ к инструментам влияют на производительность агентов в реальных условиях.

Данные вместо догадок

С Experiments команды могут отслеживать, как изменения — будь то новый инструмент, промпт, обновление модели или полный рефакторинг пайплайна — влияют на производительность AI через миллионы пользовательских взаимодействий. Функция доступна в рамках Pro-подписки Raindrop за $350 в месяц.

Сооснователь и технический директор Raindrop Бен Хайлак отмечает, что Experiments помогает командам увидеть «как буквально что угодно изменилось» — от использования инструментов до пользовательских намерений и частоты ошибок, включая анализ по демографическим факторам вроде языка.

Наконец-то появляются инструменты, которые переводят разработку AI-агентов из области алхимии в инженерную дисциплину. Проблема «тесты проходят, а агенты проваливаются» знакома каждому, кто работал с продакшен-системами. Интересно, сможет ли Raindrop убедить предприятия платить $350 в месяц за то, что раньше было искусством, а теперь становится наукой.

От наблюдения к экспериментированию

Запуск Experiments логично продолжает миссию Raindrop как одной из первых AI-нативных платформ мониторинга. Компания, изначально известная как Dawn AI, была создана для решения «проблемы черного ящика» производительности AI.

Как сообщалось ранее, Хайлак, бывший дизайнер интерфейсов Apple, описывал, как «AI-продукты постоянно проваливаются — как забавно, так и ужасающе», отмечая, что в отличие от традиционного ПО, которое выдает четкие исключения, «AI-продукты проваливаются молча».

Решение проблемы «Evals Pass, Agents Fail»

Традиционные фреймворки оценки, полезные для бенчмаркинга, редко захватывают непредсказуемое поведение AI-агентов в динамичных средах.

Соосновательница Raindrop Алексис Гауба в своем объявлении объяснила: «Традиционные оценки не отвечают на этот вопрос. Они отлично подходят для юнит-тестов, но вы не можете предсказать действия пользователя, а ваш агент работает часами, вызывая сотни инструментов».

Компания постоянно слышала общую фрустрацию от команд: «Оценки проходят, агенты проваливаются» — оценки проходят, агенты проваливаются.

Интеграция и безопасность

Experiments интегрируется с «платформами флаг-фич, которые компании знают и любят», и предназначена для бесшовной работы с существующими телеметрическими и аналитическими пайплайнами.

Для статистически значимых результатов командам обычно нужно около 2000 пользователей в день. Платформа отслеживает достаточность размера выборки и предупреждает пользователей, если тесту не хватает данных для валидных выводов.

В вопросах безопасности Raindrop заявляет о соответствии стандарту SOC 2 и предлагает функцию PII Guard, которая использует AI для автоматического удаления чувствительной информации из хранимых данных.

Цены и планы

Experiments доступен в рамках Pro-плана Raindrop:

  • $350 в месяц или $0.0007 за взаимодействие
  • Включает инструменты глубокого исследования, кластеризацию тем, кастомный трекинг проблем и семантический поиск

Starter-план за $65 в месяц предлагает базовую аналитику, включая детекцию проблем, пользовательские фидбек-сигналы, Slack-оповещения и трекинг пользователей.

По материалам VentureBeat.