SyGra от ServiceNow — фреймворк для генерации данных ML

ServiceNow анонсировала SyGra — low-code фреймворк для генерации и преобразования данных для обучения языковых моделей. Решение упрощает создание сложных датасетов для SFT, DPO и RAG-пайплайнов.

Оглавление

Проблема данных в современном ML
SyGra: Единый фреймворк для всех задач данных
Ключевые особенности SyGra
Архитектура и возможности
Значение для индустрии

По сообщению Hugging Face, компания ServiceNow анонсировала открытый фреймворк SyGra, предназначенный для решения одной из самых болезненных проблем в машинном обучении — подготовки качественных данных для обучения языковых моделей.

Проблема данных в современном ML

Когда мы говорим о построении моделей — будь то большие языковые модели (LLM) или малые языковые модели (SLM) — первое, что нам нужно, это данные. Хотя доступно огромное количество открытых данных, они редко поступают в точном формате, необходимом для обучения или выравнивания моделей.

На практике мы часто сталкиваемся со сценариями, когда сырых данных недостаточно. Нам нужны данные, которые более структурированы, предметно-ориентированы, сложны или соответствуют поставленной задаче. Рассмотрим некоторые распространенные ситуации:

Сложные сценарии отсутствуют — вы начинаете с простого набора данных, но модель не справляется с продвинутыми задачами рассуждений
Преобразование базы знаний в вопрос-ответ — у вас уже есть база знаний, но она не в формате Q&A
От SFT к DPO — вы подготовили набор данных для контролируемого тонкого обучения, но теперь хотите выровнять модель с помощью оптимизации прямых предпочтений
Глубина вопросов — у вас есть набор данных вопросов и ответов, но вопросы поверхностные

SyGra: Единый фреймворк для всех задач данных

Именно здесь на помощь приходит SyGra — low-code/no-code фреймворк, разработанный для упрощения создания, преобразования и выравнивания наборов данных для LLM и SLM.

Вместо написания сложных скриптов и конвейеров вы можете сосредоточиться на инженерии промптов, пока SyGra берет на себя тяжелую работу.

Диаграмма архитектуры компонентов клиента SyGra от ServiceNow — Источник: huggingface.co

Ключевые особенности SyGra

Библиотека Python + фреймворк: легко интегрируется в существующие ML-воркфлоу
Поддержка нескольких бэкендов вывода: работает с vLLM, Hugging Face TGI, Triton, Ollama и другими
Low-code/No-code: создание сложных наборов данных без серьезных инженерных усилий
Гибкая генерация данных: от Q&A до DPO, от рассуждений до многоязычных задач

SyGra выглядит как долгожданное решение для инженеров ML, которые устали от бесконечного написания кастомных пайплайнов для каждой новой задачи. Интересно, насколько хорошо он справится с реальными production-задачами, где качество данных критически важно, а требования к задержкам жесткие. ServiceNow явно делает ставку на упрощение ML-разработки — посмотрим, станет ли SyGra таким же стандартом, как Transformers от Hugging Face.

Архитектура и возможности

Фреймворк позволяет ускорить выравнивание моделей (SFT, DPO, RAG-пайплайны), экономить инженерное время с помощью plug-and-play воркфлоу и улучшать надежность моделей в сложных и предметно-ориентированных задачах.

Пример реализации можно найти в официальной документации.

Значение для индустрии

Данные — это фундамент ИИ. Качество, разнообразие и структура ваших данных часто важнее, чем настройки архитектуры модели. Включая гибкое и масштабируемое создание наборов данных, SyGra помогает командам сократить усилия по ручной курации данных и сосредоточиться на том, что действительно важно: построении умных AI-систем.

Новости

ServiceNow представляет SyGra — фреймворк для генерации данных для языковых моделей

Проблема данных в современном ML

SyGra: Единый фреймворк для всех задач данных

Ключевые особенности SyGra

Архитектура и возможности

Значение для индустрии

Еще интереснее

Контекстуальный поиск может решить проблему потери смысла в RAG-системах

Lovable внедрила умную маршрутизацию LLM-трафика мощностью в 1 млрд токенов за минуту

OpenAI разрабатывает конкурента платформы GitHub

Hugging Face интегрирует llama.cpp — локальный ИИ выходит из «гаражного» стартапа

Оставить комментарий