Оглавление
Компания Together AI представила масштабное обновление своего Batch Inference API, которое кардинально меняет подход к обработке больших объемов данных с помощью языковых моделей. Нововведения включают улучшенный интерфейс, расширенную поддержку моделей и беспрецедентное увеличение лимитов обработки.

Ключевые улучшения
Среди наиболее значимых изменений:
- Упрощенный интерфейс — создание и отслеживание пакетных заданий через интуитивный UI без сложных API-вызовов
- Универсальная поддержка моделей — теперь доступны все serverless-модели и приватные развертывания
- Революционное увеличение лимитов — с 10 миллионов до 30 миллиардов токенов в очереди на модель пользователя
- Снижение стоимости — для большинства serverless-моделей пакетная обработка стоит на 50% дешевле реального времени
Практическое применение
«Мы используем Batch Inference API для обработки огромных объемов запросов. Высокие лимиты — до 30 миллиардов токенов в очереди — позволяют проводить масштабные эксперименты без узких мест, а задания стабильно завершаются значительно быстрее 24-часового SLA, часто всего за несколько часов. Это изменило скорость наших тестов и итераций», — отмечает Владимир Кулешов, сооснователь Inception Labs.
Революция в пакетной обработке не в том, что она стала быстрее или дешевле — это ожидаемо. Настоящий прорыв в том, что инженеры наконец-то могут работать с объемами данных, которые раньше были теоретическими. 30 миллиардов токенов — это уже не просто «большие данные», это масштабы, которые раньше были доступны только гигантам вроде Google или OpenAI. Интересно, как это изменит ландшафт ML-экспериментов в ближайшие год-два.
Идеальные сценарии использования
Batch Inference API оптимально подходит для задач с высокими требованиями к пропускной способности без необходимости реального времени:
- Анализ больших текстовых массивов: анализ тональности, классификация документов, тегирование контента
- Обнаружение мошенничества: сканирование миллионов транзакций на аномалии
- Генерация синтетических данных: создание массивных обучающих наборов
- Создание эмбеддингов: преобразование больших корпусов текстов в векторные представления
- Модерация контента: обработка пользовательского контента в масштабе
- Оценка моделей: запуск больших наборов тестов
- Автоматизация поддержки клиентов: обработка тикетов с более длительными SLA
Перспективы развития
Эти обновления знаменуют собой значительный шаг вперед в обеспечении доступности и экономической эффективности масштабного вывода. С улучшенным интерфейсом, универсальной поддержкой моделей и значительно увеличенными лимитами — все это обычно вдвое дешевле API реального времени — Batch Inference API становится наиболее эффективным способом обработки массивных рабочих нагрузок.
Оставить комментарий