Оглавление

Компания Together AI представила масштабное обновление своего Batch Inference API, которое кардинально меняет подход к обработке больших объемов данных с помощью языковых моделей. Нововведения включают улучшенный интерфейс, расширенную поддержку моделей и беспрецедентное увеличение лимитов обработки.

Интерфейс API пакетного вывода с дашбордом создания и отслеживания заданий

Ключевые улучшения

Среди наиболее значимых изменений:

  • Упрощенный интерфейс — создание и отслеживание пакетных заданий через интуитивный UI без сложных API-вызовов
  • Универсальная поддержка моделей — теперь доступны все serverless-модели и приватные развертывания
  • Революционное увеличение лимитов — с 10 миллионов до 30 миллиардов токенов в очереди на модель пользователя
  • Снижение стоимости — для большинства serverless-моделей пакетная обработка стоит на 50% дешевле реального времени

Практическое применение

«Мы используем Batch Inference API для обработки огромных объемов запросов. Высокие лимиты — до 30 миллиардов токенов в очереди — позволяют проводить масштабные эксперименты без узких мест, а задания стабильно завершаются значительно быстрее 24-часового SLA, часто всего за несколько часов. Это изменило скорость наших тестов и итераций», — отмечает Владимир Кулешов, сооснователь Inception Labs.

Революция в пакетной обработке не в том, что она стала быстрее или дешевле — это ожидаемо. Настоящий прорыв в том, что инженеры наконец-то могут работать с объемами данных, которые раньше были теоретическими. 30 миллиардов токенов — это уже не просто «большие данные», это масштабы, которые раньше были доступны только гигантам вроде Google или OpenAI. Интересно, как это изменит ландшафт ML-экспериментов в ближайшие год-два.

Идеальные сценарии использования

Batch Inference API оптимально подходит для задач с высокими требованиями к пропускной способности без необходимости реального времени:

  • Анализ больших текстовых массивов: анализ тональности, классификация документов, тегирование контента
  • Обнаружение мошенничества: сканирование миллионов транзакций на аномалии
  • Генерация синтетических данных: создание массивных обучающих наборов
  • Создание эмбеддингов: преобразование больших корпусов текстов в векторные представления
  • Модерация контента: обработка пользовательского контента в масштабе
  • Оценка моделей: запуск больших наборов тестов
  • Автоматизация поддержки клиентов: обработка тикетов с более длительными SLA

Перспективы развития

Эти обновления знаменуют собой значительный шаг вперед в обеспечении доступности и экономической эффективности масштабного вывода. С улучшенным интерфейсом, универсальной поддержкой моделей и значительно увеличенными лимитами — все это обычно вдвое дешевле API реального времени — Batch Inference API становится наиболее эффективным способом обработки массивных рабочих нагрузок.