Оглавление

Исследовательская команда из MIT, IBM и Университета Вашингтона представила TOUCAN — самый масштабный на сегодня открытый набор данных для обучения AI-агентов. Датасет содержит 1,5 миллиона реальных взаимодействий с инструментами и призван помочь открытым моделям эффективнее работать с внешними сервисами.

Реальные взаимодействия вместо симуляций

Команда из MIT-IBM Watson AI Lab и Университета Вашингтона создала TOUCAN для решения ключевой проблемы: практически нет открытых лицензированных наборов данных, которые показывают языковым моделям, как корректно использовать реальные инструменты. TOUCAN включает 1,5 миллиона взаимодействий с инструментами из реальных сред Model Context Protocol (MCP).

Датасет охватывает 495 реальных MCP-серверов с более чем 2000 различных инструментов — от веб-поиска и платформ разработки до финансов, погоды и AI-сервисов. Каждая запись документирует полную цепочку: исходную задачу, вызовы инструментов, ответы и конечный результат.

В отличие от предыдущих открытых наборов данных вроде ToolLLM и ToolACE, которые в основном полагались на симулированные ответы инструментов, TOUCAN использует реальные выполнения API в настоящих средах, фиксируя более реалистичные ошибки, задержки и контекстные зависимости — проблемы, которые часто вызывают сложности в реальных агентских системах.

Пятиэтапный процесс создания данных

Данные генерировались с помощью пятиступенчатого конвейера:

  1. Исследователи собрали и проверили MCP-серверы из Smithery.ai
  2. Пять различных языковых моделей (включая Mistral, Kimi-K2 и Qwen3-32B) создавали обучающие задачи
  3. Задачи фильтровались по качеству, реалистичности и отслеживаемости в несколько раундов
  4. Три дополнительные модели превращали эти задачи в реальные истории взаимодействий с использованием фактических вызовов инструментов
  5. Датасет дополнительно расширялся тремя способами: добавлением нерешаемых задач, созданием вариантов с разными ролями и контекстами, построением длинных диалоговых цепочек

Улучшенное использование инструментов открытыми моделями

В тестах с тремя открытыми моделями Qwen-2.5 (7B, 14B и 32B параметров) исследователи наблюдали явный прирост производительности. На бенчмарке BFCL V3 показатель модели Qwen-2.5-32B вырос на 8,7 процентных пункта после тонкой настройки с TOUCAN, превзойдя GPT-4.5-Preview в нескольких областях.

Результаты на бенчмарках τ-Bench, τ²-Bench и MCP-Universe показали улучшения от трех до семи пунктов по сравнению с базовыми моделями. На MCP-Universe — тестирующем реальные интерфейсы инструментов — модели, дообученные на TOUCAN, даже обогнали более крупные открытые системы вроде Llama-3.3 (70B) и GLM-4.5 (106B). По словам исследователей, это заметно сдвигает границы эффективности для меньших моделей.

TOUCAN — это не просто очередной датасет, а стратегический удар по монополии закрытых систем в области AI-агентов. Тот факт, что 32-миллиардная модель после дообучения обходит 70-миллиардные конкуренты в реальных задачах, говорит о качестве данных больше, чем любые маркетинговые заявления. Интересно, сколько времени пройдет, прежде чем подобные подходы станут стандартом — пока же это демонстрация того, как правильные данные могут компенсировать недостаток параметров.

Значение и ограничения

TOUCAN упрощает обучение моделей с открытым исходным кодом для работы с реальными инструментами — областью, где сейчас доминируют закрытые системы вроде GPT-5 и Claude 4.5. Проект также подчеркивает, насколько важны обучающие данные: меньшие модели теперь могут решать задачи с эффективностью, сравнимой со старыми проприетарными системами, хотя все еще отстают от последнего поколения.

Исследовательская команда утверждает, что все MCP-данные собраны из публичных источников, а персональная информация предварительно обработана и удалена. Код и датасет доступны на GitHub и Hugging Face под разрешительной лицензией. В планах — экспертная модель для симуляции инструментов и бенчмарк для веб-поиска.

По материалам The-Decoder