Оглавление

Команда Scale AI обнаружила фундаментальную проблему в использовании языковых моделей для обработки данных: традиционный подход к инструментальным цепочкам приводит к катастрофическим ошибкам при работе с реальными наборами данных. Решение оказалось неожиданным — вместо того чтобы заставлять LLM выполнять задачи, нужно научить их составлять планы.

Проблема очистки данных и ограничения LLM

Представьте образовательный стартап, которому нужно очистить тысячи вопросов и ответов из учебников, веб-сайтов и XML-файлов для обучения своей модели. Стандартное решение — использовать LLM для обработки этих данных. Но как показывает практика, это приводит к печальным результатам.

Исследователи протестировали два подхода:

  • Прямая обработка каждой пары вопрос-ответ LLM
  • Генерация скрипта для автоматической обработки данных

Первый метод провалился: модели теряли контекст, пропускали ключевые детали, неправильно интерпретировали теги и структуры данных. Второй подход, казалось бы более перспективный, тоже показал серьезные ограничения.

Почему стандартный подход инструментальных цепочек не работает

Основная проблема традиционного подхода — необходимость оркестрации инструментов самим LLM. Каждый ответ инструмента возвращается модели, которая должна передать его следующему инструменту. Это создает идеальные условия для ошибок:

  • LLM может случайно изменить формат данных
  • Потеря критической информации при передаче между инструментами
  • Раздувание контекстного окна и рост затрат
  • Катастрофические последствия от единичной ошибки в данных

Как отмечается в статье, даже OpenAI в своем новом gpt-oss релизе признает эту проблему, вводя Harmony Response format для маршрутизации вызовов инструментов.

Пример неструктурированного набора данных вопросов и ответов для анализа
Источник: scale.com

Ирония в том, что мы годами учили модели «думать», а теперь осознаем, что им лучше не думать, а планировать. Это как нанять гениального архитектора, но не позволять ему брать в руки молоток — его ценность в видении, а не в исполнении.

Решение: от исполнения к планированию

Вместо того чтобы заставлять LLM выполнять инструментальные цепочки, исследователи предложили принципиально иной подход: модель генерирует план, а специальный Инструмент выполнения планов выполняет его. LLM получает только релевантный фидбэк для уточнения плана, но не участвует в непосредственной оркестрации.

Это решает ключевые проблемы:

  • Исключает возможность случайного изменения данных
  • Снимает нагрузку с контекстного окна
  • Позволяет обрабатывать сложные, вложенные структуры данных

Три подхода к генерации планов

Команда протестировала три формата планов против базового уровня ручной разработки:

Plan as JSON с инструментами

LLM генерирует JSON-структуру с последовательностью шагов, где каждый шаг — вызов инструмента или выполнение кода. Ключевое преимущество — модель может ссылаться на результаты предыдущих шагов без явного получения вывода.

{
"name": "LLMPlan",
"description": "This plan is designed for a data formatting task",
"steps": [
{
"name": "load_csv",
"action": "load_csv",
"params": {"path": "input_data.csv"}
},
{
"name": "run_python_code",
"action": "run_python",
"params": {"code": ""}
},
{
"name": "save_formatted_csv",
"action": "save_csv",
"params": {"path": "output_data.csv", "df": "$stepk.result"}
}
]
}

Plan as Python с инъекцией инструментов

Модель пишет Python-код, который использует предустановленные инструменты. Этот подход показал наилучшие результаты, почти сравнимые с ручной разработкой.

Plan as Python без инструментов

LLM генерирует чистый Python-код без доступа к специальным инструментам. Наименее эффективный подход из протестированных.

Результаты и выводы

Наиболее эффективным оказался подход с генерацией Python-планов с использованием предварительно собранных инструментов. Этот метод достиг точности, близкой к ручной разработке, но с радикальным сокращением времени и затрат — вместо недели работы инженера требуется несколько часов работы LLM.

Ключевое понимание: LLM исключительно сильны в генерации и уточнении планов, но слабы в непосредственной оркестрации инструментов. Разделение ответственности между планированием и исполнением открывает новые возможности для автоматизации сложных задач обработки данных.

Сравнительная диаграмма трёх вариантов тарифных планов

По материалам Scale AI