Оглавление
AWS анонсировала общедоступность функции тонкого управления квотами вычислений и памяти в HyperPod task governance. Эта возможность позволяет оптимизировать использование кластеров Amazon SageMaker HyperPod на базе Amazon Elastic Kubernetes Service (EKS), обеспечивая справедливое распределение ресурсов между разными командами и проектами.
Зачем нужно управление квотами вычислений
Управление квотами вычислений — это административный механизм, который устанавливает и контролирует лимиты вычислительных ресурсов для пользователей, команд и проектов. Он обеспечивает справедливое распределение ресурсов, предотвращая монополизацию ресурсов кластера одним участником, что оптимизирует общую вычислительную эффективность.
Из-за бюджетных ограничений клиенты часто хотят распределять вычислительные ресурсы между несколькими командами справедливо. Например, специалист по данным может нуждаться в нескольких GPU (скажем, четыре H100) для разработки модели, но не во всей вычислительной мощности инстанса. В других случаях у клиентов ограниченные вычислительные ресурсы, но много команд, и они хотят справедливо распределить эти ресурсы, чтобы не оставалось неиспользуемой мощности.
Наконец-то дождались: инструмент, который заставляет инженеров делиться дорогими GPU без драк и саботажа. Теперь можно гарантировать, что команда по компьютерному зрению не сожрет все H100, оставив NLP-шников с носом. Правда, теперь администраторам придется осваивать роль справедливого короля Артура за круглым столом распределения ресурсов.
Ключевые возможности
С HyperPod task governance администраторы теперь могут выделять:
- Гранулярные квоты GPU по типам и семействам инстансов
- Поддержку как Trainium, так и NVIDIA GPU
- Опциональное выделение CPU и памяти для точного контроля ресурсов
- Возможность определения веса (уровня приоритета) для команды при распределении неиспользуемых ресурсов
«С широким разнообразием передовых экспериментов с ИИ и продакшен-пайплайнов, возможность максимизировать использование кластеров SageMaker HyperPod чрезвычайно важна. Это требует справедливого и контролируемого доступа к общим ресурсам вроде современных GPU, гранулярного выделения железа и многого другого. Именно для этого и построен HyperPod task governance, и мы рады видеть, как AWS продвигает эффективное использование кластеров для различных случаев использования ИИ», — комментирует Дэниел Сю, директор по продукту в Snorkel AI.
Обзор решения
Предварительные требования
Для использования новых возможностей необходимо:
- Аккаунт AWS с доступом к SageMaker HyperPod
- Работающий кластер SageMaker HyperPod (управляемый через EKS)
- Версия аддона HyperPod task governance 1.3 или новее
Для планирования и выполнения задач также потребуется настроить локальное окружение с установленными:
- AWS CLI
- HyperPod CLI версии 3.1.0
- Kubectl
- HyperPod Training Operator в кластере
Выделение гранулярных квот через AWS консоль
Администраторы — основные пользователи SageMaker HyperPod task governance — отвечают за управление выделением вычислений в кластере в соответствии со стратегическими приоритетами и целями организации.
Внедрение этой функции следует знакомому рабочему процессу создания выделения вычислений HyperPod task governance. Для начала войдите в AWS Management Console и перейдите в Управление кластерами в разделе Кластеры HyperPod в консоли Amazon SageMaker AI. Выбрав свой HyperPod кластер, перейдите на вкладку Политики на странице деталей кластера. Перейдите к Выделениям вычислений и выберите Создать.

Как и в существующем функционале, вы можете включить приоритизацию задач и справедливое распределение ресурсов через политики кластера, которые расставляют приоритеты критичным нагрузкам и распределяют неиспользуемые вычислительные ресурсы между командами.
Сообщает блог AWS по машинному обучению.
Оставить комментарий