LLM-судьи оказались ненадежными оценщиками качества ответов
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
DataRobot — платформа автоматизированного машинного обучения (AutoML) для бизнеса. Предоставляет инструменты для построения, развёртывания и управления ML-моделями без глубоких знаний в data science. Новости о развитии платформы и корпоративных AI-решениях.
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
Исследование выявило 23 универсальные конфигурации AI-агентов, которые показывают стабильно высокую производительность across различных датасетов, ускоряя запуск проектов на 75% при сокращении затрат на 80%.
DataRobot представила платформу для вывода AI-агентов из POC в продакшен. Пошаговый гайд по преодолению сложностей сборки, деплоя и governance составных агентных систем.