Оглавление

Amazon Web Services представляет второе поколение специализированных процессоров для обучения и инференса моделей машинного обучения. Новые чипы Trainium2 и Inferentia2 предлагают значительное улучшение производительности при снижении стоимости вычислений.

Технологические особенности новых чипов

Trainium2 демонстрирует четырехкратное увеличение производительности обучения моделей на один чип и вдвое большую энергоэффективность по сравнению с первым поколением. Архитектура оптимизирована для работы с крупными языковыми моделями и трансформерами.

Inferentia2 показывает до 4 раз более высокую пропускную способность и до 10 раз меньшую задержку при выводе результатов по сравнению с предшественником. Чип поддерживает широкий спектр форматов данных, включая FP16, BF16 и INT8.

Масштабирование инфраструктуры

AWS развертывает кластеры EC2 UltraCluster емкостью до 100 тысяч чипов Trainium2, что обеспечивает экзафлопсные вычислительные мощности для обучения моделей следующего поколения. Инфраструктура поддерживает петабитное сетевое соединение между узлами.

  • Поддержка распределенного обучения через AWS Neuron SDK
  • Интеграция с Amazon SageMaker для сквозных рабочих процессов машинного обучения
  • Оптимизация для фреймворков PyTorch и TensorFlow

Специализированные AI-чипы становятся новым фронтом конкурентной борьбы облачных провайдеров. AWS явно нацеливается на нишу крупномасштабного обучения моделей, где традиционные GPU уже показывают ограничения. Интересно, что компания делает ставку на собственную кремниевую разработку вместо партнерств с NVIDIA — стратегический ход, который может переопределить рыночные доли в долгосрочной перспективе.

Экономические преимущества

По оценкам AWS, использование Trainium2 позволяет сократить стоимость обучения моделей на 50% по сравнению с GPU-инстансами аналогичной производительности. Для инференса экономия достигает 40% при использовании Inferentia2.

Провайдер также анонсировал Управляемые сервисы для инфраструктуры машинного обучения, которые автоматизируют развертывание и масштабирование вычислительных кластеров. Сервис включает мониторинг использования ресурсов и автоматическую оптимизацию рабочих нагрузок.

По материалам AWS Machine Learning Blog.