Оглавление
Компания Google Research анонсировала DS-STAR — новую систему искусственного интеллекта, предназначенную для автоматизации сложных задач в области Data Science. Агент способен самостоятельно анализировать разнородные данные, генерировать код и выполнять полный цикл обработки информации от начального анализа до финальных выводов.
Проблема современных Data Science агентов
Современные автономные агенты для Data Science, построенные на базе больших языковых моделей, сталкиваются с несколькими фундаментальными ограничениями. Основная проблема — их неспособность эффективно работать с разнородными форматами данных. Большинство существующих решений ориентированы на структурированные данные вроде CSV-файлов, игнорируя реальные сценарии работы с JSON, неструктурированным текстом, Markdown и другими форматами.
Еще одна сложность — открытый характер многих Data Science задач, где отсутствуют четкие критерии правильности решения. Это делает автоматическую верификацию результатов чрезвычайно сложной задачей.
Архитектура DS-STAR
DS-STAR представляет собой трехкомпонентную систему, работающую по принципу итеративного планирования и верификации:
- Анализатор данных — автоматически сканирует все файлы в директории и создает текстовое резюме их структуры и содержимого
- Планировщик — формулирует высокоуровневый план решения задачи
- Кодер — трансформирует план в исполняемый код
- Верификатор — оценивает эффективность кода в решении поставленной проблемы

Итеративный процесс работы
Система работает в цикличном режиме: планирование → кодирование → верификация. Если верификатор определяет план как недостаточный, специальный Router-агент вносит коррективы — либо добавляет новые шаги, либо исправляет ошибки в существующем плане.
Процесс продолжается до тех пор, пока верификатор не одобрит решение или не будет достигнут лимит в 10 итераций. Такой подход имитирует работу опытного Data Scientist, который последовательно уточняет и совершенствует свой анализ.

Результаты тестирования
В сравнении с современными аналогами (AutoGen и DA-Agent) DS-STAR показал существенное превосходство на всех основных бенчмарках:
- DABStep: точность повысилась с 41.0% до 45.2%
- KramaBench: рост с 39.8% до 44.7%
- DA-Code: улучшение с 37.0% до 38.5%
Система также заняла первое место на публичном лидерборде бенчмарка DABStep по состоянию на 18 сентября 2025 года.

Анализ компонентов системы
Исследователи провели серию ablation-тестов для оценки вклада каждого компонента:
Анализатор данных
Без этого модуля (Variant 1) точность DS-STAR на сложных задачах DABStep резко падала до 26.98%, что подтверждает критическую важность контекстуального анализа данных для эффективного планирования.
Router-агент
Удаление этого компонента (Variant 2) приводило к последовательному добавлению шагов без коррекции ошибок, что ухудшало производительность как на простых, так и на сложных задачах.
Адаптивность к разным LLM
Система демонстрирует хорошую совместимость с различными языковыми моделями. Интересно, что DS-STAR на базе GPT-5 показывает лучшие результаты на простых задачах, тогда как версия с Gemini-2.5-Pro эффективнее справляется со сложными сценариями.
Анализ итерационного процесса
Исследование показало, что сложные задачи естественным образом требуют большего количества итераций. На бенчмарке DABStep сложные задачи решались в среднем за 5.6 раундов, тогда как простые — всего за 3.0 раунда. Более половины простых задач были решены за один проход.
Что действительно впечатляет в DS-STAR — так это прагматичный подход к решению фундаментальной проблемы Data Science: разрыва между аналитическим мышлением и технической реализацией. Вместо попыток создать универсального «гения», система разбивает процесс на специализированные роли, каждая из которых решает конкретную подзадачу. Это напоминает хорошо отлаженную команду разработчиков, где каждый участник вносит свой уникальный вклад в общий результат.
Система демонстрирует, что будущее автоматизации Data Science лежит не в создании единого монолитного ИИ, а в разработке слаженных ансамблей специализированных агентов, способных эффективно взаимодействовать для решения комплексных задач.
По материалам Google Research
Оставить комментарий