Оглавление

AWS анонсировала общедоступность функции тонкого управления квотами вычислений и памяти в HyperPod task governance. Эта возможность позволяет оптимизировать использование кластеров Amazon SageMaker HyperPod на базе Amazon Elastic Kubernetes Service (EKS), обеспечивая справедливое распределение ресурсов между разными командами и проектами.

Зачем нужно управление квотами вычислений

Управление квотами вычислений — это административный механизм, который устанавливает и контролирует лимиты вычислительных ресурсов для пользователей, команд и проектов. Он обеспечивает справедливое распределение ресурсов, предотвращая монополизацию ресурсов кластера одним участником, что оптимизирует общую вычислительную эффективность.

Из-за бюджетных ограничений клиенты часто хотят распределять вычислительные ресурсы между несколькими командами справедливо. Например, специалист по данным может нуждаться в нескольких GPU (скажем, четыре H100) для разработки модели, но не во всей вычислительной мощности инстанса. В других случаях у клиентов ограниченные вычислительные ресурсы, но много команд, и они хотят справедливо распределить эти ресурсы, чтобы не оставалось неиспользуемой мощности.

Наконец-то дождались: инструмент, который заставляет инженеров делиться дорогими GPU без драк и саботажа. Теперь можно гарантировать, что команда по компьютерному зрению не сожрет все H100, оставив NLP-шников с носом. Правда, теперь администраторам придется осваивать роль справедливого короля Артура за круглым столом распределения ресурсов.

Ключевые возможности

С HyperPod task governance администраторы теперь могут выделять:

  • Гранулярные квоты GPU по типам и семействам инстансов
  • Поддержку как Trainium, так и NVIDIA GPU
  • Опциональное выделение CPU и памяти для точного контроля ресурсов
  • Возможность определения веса (уровня приоритета) для команды при распределении неиспользуемых ресурсов

«С широким разнообразием передовых экспериментов с ИИ и продакшен-пайплайнов, возможность максимизировать использование кластеров SageMaker HyperPod чрезвычайно важна. Это требует справедливого и контролируемого доступа к общим ресурсам вроде современных GPU, гранулярного выделения железа и многого другого. Именно для этого и построен HyperPod task governance, и мы рады видеть, как AWS продвигает эффективное использование кластеров для различных случаев использования ИИ», — комментирует Дэниел Сю, директор по продукту в Snorkel AI.

Обзор решения

Предварительные требования

Для использования новых возможностей необходимо:

  • Аккаунт AWS с доступом к SageMaker HyperPod
  • Работающий кластер SageMaker HyperPod (управляемый через EKS)
  • Версия аддона HyperPod task governance 1.3 или новее

Для планирования и выполнения задач также потребуется настроить локальное окружение с установленными:

  • AWS CLI
  • HyperPod CLI версии 3.1.0
  • Kubectl
  • HyperPod Training Operator в кластере

Выделение гранулярных квот через AWS консоль

Администраторы — основные пользователи SageMaker HyperPod task governance — отвечают за управление выделением вычислений в кластере в соответствии со стратегическими приоритетами и целями организации.

Внедрение этой функции следует знакомому рабочему процессу создания выделения вычислений HyperPod task governance. Для начала войдите в AWS Management Console и перейдите в Управление кластерами в разделе Кластеры HyperPod в консоли Amazon SageMaker AI. Выбрав свой HyperPod кластер, перейдите на вкладку Политики на странице деталей кластера. Перейдите к Выделениям вычислений и выберите Создать.

Интерфейс консоли AWS с созданием выделения вычислений для управления задачами в HyperPod

Как и в существующем функционале, вы можете включить приоритизацию задач и справедливое распределение ресурсов через политики кластера, которые расставляют приоритеты критичным нагрузкам и распределяют неиспользуемые вычислительные ресурсы между командами.

Сообщает блог AWS по машинному обучению.