Оглавление
Стартап Raindrop, специализирующийся на мониторинге AI-приложений, представил Experiments — первую платформу для A/B тестирования корпоративных AI-агентов. Новый инструмент позволяет компаниям сравнивать, как обновления моделей, изменение инструкций или доступ к инструментам влияют на производительность агентов в реальных условиях.
Данные вместо догадок
С Experiments команды могут отслеживать, как изменения — будь то новый инструмент, промпт, обновление модели или полный рефакторинг пайплайна — влияют на производительность AI через миллионы пользовательских взаимодействий. Функция доступна в рамках Pro-подписки Raindrop за $350 в месяц.
Сооснователь и технический директор Raindrop Бен Хайлак отмечает, что Experiments помогает командам увидеть «как буквально что угодно изменилось» — от использования инструментов до пользовательских намерений и частоты ошибок, включая анализ по демографическим факторам вроде языка.
Наконец-то появляются инструменты, которые переводят разработку AI-агентов из области алхимии в инженерную дисциплину. Проблема «тесты проходят, а агенты проваливаются» знакома каждому, кто работал с продакшен-системами. Интересно, сможет ли Raindrop убедить предприятия платить $350 в месяц за то, что раньше было искусством, а теперь становится наукой.
От наблюдения к экспериментированию
Запуск Experiments логично продолжает миссию Raindrop как одной из первых AI-нативных платформ мониторинга. Компания, изначально известная как Dawn AI, была создана для решения «проблемы черного ящика» производительности AI.
Как сообщалось ранее, Хайлак, бывший дизайнер интерфейсов Apple, описывал, как «AI-продукты постоянно проваливаются — как забавно, так и ужасающе», отмечая, что в отличие от традиционного ПО, которое выдает четкие исключения, «AI-продукты проваливаются молча».
Решение проблемы «Evals Pass, Agents Fail»
Традиционные фреймворки оценки, полезные для бенчмаркинга, редко захватывают непредсказуемое поведение AI-агентов в динамичных средах.
Соосновательница Raindrop Алексис Гауба в своем объявлении объяснила: «Традиционные оценки не отвечают на этот вопрос. Они отлично подходят для юнит-тестов, но вы не можете предсказать действия пользователя, а ваш агент работает часами, вызывая сотни инструментов».
Компания постоянно слышала общую фрустрацию от команд: «Оценки проходят, агенты проваливаются» — оценки проходят, агенты проваливаются.
Интеграция и безопасность
Experiments интегрируется с «платформами флаг-фич, которые компании знают и любят», и предназначена для бесшовной работы с существующими телеметрическими и аналитическими пайплайнами.
Для статистически значимых результатов командам обычно нужно около 2000 пользователей в день. Платформа отслеживает достаточность размера выборки и предупреждает пользователей, если тесту не хватает данных для валидных выводов.
В вопросах безопасности Raindrop заявляет о соответствии стандарту SOC 2 и предлагает функцию PII Guard, которая использует AI для автоматического удаления чувствительной информации из хранимых данных.
Цены и планы
Experiments доступен в рамках Pro-плана Raindrop:
- $350 в месяц или $0.0007 за взаимодействие
- Включает инструменты глубокого исследования, кластеризацию тем, кастомный трекинг проблем и семантический поиск
Starter-план за $65 в месяц предлагает базовую аналитику, включая детекцию проблем, пользовательские фидбек-сигналы, Slack-оповещения и трекинг пользователей.
По материалам VentureBeat.
Оставить комментарий