Оглавление

По мере масштабирования использования генеративного ИИ многим организациям требуется не столько реальное время отклика, сколько эффективная массовая обработка данных. Amazon Bedrock пакетный инференс решает эту задачу, позволяя обрабатывать большие наборы данных оптом с предсказуемой производительностью — и на 50% дешевле, чем инференс по требованию.

Новые возможности пакетной обработки

Пакетный инференс в Amazon Bedrock постоянно развивается, и последние обновления приносят значительные улучшения:

  • Расширенная поддержка моделей — теперь поддерживаются дополнительные семейства моделей, включая Anthropic Claude Sonnet 4 и OpenAI OSS модели
  • Улучшения производительности — оптимизации для новых моделей Anthropic Claude и OpenAI GPT OSS обеспечивают более высокую пропускную способность
  • Возможности мониторинга заданий — отслеживание прогресса пакетных заданий напрямую в CloudWatch без необходимости создания кастомных решений

Типичные сценарии использования

AWS рекомендует использовать пакетный инференс в следующих случаях:

  • Задания не чувствительны ко времени и допускают задержки от минут до часов
  • Периодическая обработка — ежедневное или еженедельное суммирование больших наборов данных
  • Анализ объемных или исторических данных — архивы транскриптов колл-центров, электронных писем, чат-логов
  • Обогащение баз знаний — генерация эмбеддингов, суммаризация, тегирование или перевод в масштабе
  • Крупномасштабная трансформация контента — классификация, анализ тональности, преобразование неструктурированного текста

Запуск пакетного задания

Запустить пакетное задание инференса в Amazon Bedrock можно через AWS Management Console, AWS SDK или AWS CLI. В консоли процесс включает:

  1. Выбор Batch inference в разделе Infer
  2. Нажатие Create batch inference job
  3. Ввод имени задания
  4. Выбор модели
  5. Указание местоположения входных данных в Amazon S3 (формат JSONL)
  6. Указание выходного S3-бакета
  7. Выбор метода авторизации Amazon Bedrock
  8. Создание задания
Интерфейс создания задания пакетной обработки в сервисе Amazon Bedrock
Источник: aws.amazon.com

Мониторинг через CloudWatch метрики

Amazon Bedrock теперь автоматически публикует метрики для пакетных заданий под пространством имен AWS/Bedrock/Batch. Доступны следующие метрики:

  • NumberOfTokensPendingProcessing — количество токенов, ожидающих обработки
  • NumberOfRecordsPendingProcessing — количество запросов инференса в очереди
  • NumberOfInputTokensProcessedPerMinute — скорость обработки входных токенов
  • NumberOfOutputTokensProcessedPerMinute — скорость генерации выходных токенов

Для просмотра метрик в консоли CloudWatch:

  1. Выберите Metrics в навигационной панели
  2. Отфильтруйте метрики по AWS/Bedrock/Batch
  3. Выберите свой modelId для детального просмотра
Дашборд метрик CloudWatch с показателями пакетного вывода моделей
Источник: aws.amazon.com

Интеграция мониторинга пакетных заданий в CloudWatch — это тот случай, когда AWS наконец-то доделала очевидную функциональность, которая должна была быть с самого начала. Теперь можно нормально отслеживать прогресс обработки без костылей с кастомными дашбордами, что особенно важно для коммерческих нагрузок с жесткими SLA и бюджетными ограничениями.

Лучшие практики мониторинга

Ключевые рекомендации по мониторингу и управлению пакетными заданиями:

  • Мониторинг затрат и оптимизация — отслеживание метрик пропускной способности токенов вместе с расписанием заданий позволяет оценивать затраты на инференс
  • Настройка алертов — создание CloudWatch алертов для критических метрик
  • Анализ исторических данных — использование CloudWatch Insights для выявления паттернов использования

Сообщает AWS Machine Learning Blog.