AWS упростила создание кластеров для распределенного обучения ИИ

AWS упростила создание кластеров для распределенного обучения ИИ в SageMaker HyperPod — теперь развертывание инфраструктуры занимает один клик вместо многочасовой ручной настройки.

Оглавление

Что изменилось в SageMaker HyperPod
Автоматизация критической инфраструктуры
Технические детали EKS оркестрации
Пользовательская настройка для продвинутых сценариев

По сообщению AWS Machine Learning Blog, Amazon SageMaker HyperPod получил радикально упрощенный процесс развертывания кластеров для распределенного обучения и инференса больших моделей. Вместо многоэтапной ручной настройки десятков сервисов теперь достаточно одного клика.

Что изменилось в SageMaker HyperPod

Новый интерфейс создания кластеров предлагает два варианта:

Быстрая настройка — автоматическое развертывание со стандартными конфигурациями
Пользовательская настройка — детальный контроль над каждым параметром

Оба варианта используют AWS CloudFormation для декларативного описания инфраструктуры, что обеспечивает воспроизводимость и согласованность между окружениями.

Интерфейс консоли Amazon SageMaker для создания кластера HyperPod

Автоматизация критической инфраструктуры

При выборе быстрой настройки система автоматически создает:

Новую VPC с правильно сегментированными подсетями
Группы безопасности с предустановленными правилами для EFA и FSx for Lustre
Полноценный EKS кластер с необходимыми операторами и плагинами
S3 bucket для скриптов жизненного цикла
IAM роль с соответствующими правами
Высокопроизводительную FSx for Lustre файловую систему

Сетевая конфигурация для быстрой настройки SageMaker HyperPod в AWS

Особенно важно решение использовать подсеть /16 по умолчанию — это обеспечивает поддержку более 65,000 приватных IP-адресов, что критично для крупных кластеров с тысячами ускорителей.

Экран настройки разрешений жизненного цикла и конфигурации хранилища в AWS

Технические детали EKS оркестрации

Для оркестрации EKS быстрая настройка включает:

Последнюю поддерживаемую версию Kubernetes
Плагины устройств EFA, Neuron и NVIDIA
Агент здоровья (HMA)
Обучение операторов Kubeflow
Оператор вывода SageMaker HyperPod

Настройки оркестрации Amazon EKS для кластера HyperPod в AWS

Автоматизация развертывания ML-инфраструктуры — это тот самый случай, когда действительно стоит говорить о демократизации ИИ. Раньше для настройки подобного кластера требовался опытный DevOps-инженер и несколько дней работы. Теперь — буквально пять минут и один клик. Интересно, сколько компаний из сектора MLops останутся без работы благодаря таким обновлениям.

Пользовательская настройка для продвинутых сценариев

Пользовательская настройка предоставляет полный контроль над конфигурацией, включая возможность отключения автоматического восстановления узлов — полезно для отладки и тестирования специфических сценариев.

Оба варианта значительно сокращают время развертывания готовых к работе кластеров для обучения генеративных AI-моделей, их тонкой настройки и инференса.

Новости

AWS представила упрощенное создание кластеров для распределенного обучения ИИ

Что изменилось в SageMaker HyperPod

Автоматизация критической инфраструктуры

Технические детали EKS оркестрации

Пользовательская настройка для продвинутых сценариев

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий