Оглавление

Центры обработки данных стали сердцем современного ИИ, обеспечивая три ключевые функции: вычисления, хранение и сетевые соединения. Они объединяют всю необходимую инфраструктуру для выполнения этих задач, гарантируя её стабильность и безопасность. Архитектура дата-центров строится по многоуровневому принципу: от отдельных серверных шкафов до стоек, содержащих множество серверов, которые размещаются в зданиях, объединяемых в кампусы и затем в регионы (например, «us-east-1»).

Для интеграции с внешним миром дата-центры соединяются через маршрутизаторы и кабели с другими серверами, обеспечивая передачу информации как локально, так и глобально. Хотя большинство современных дата-центров представляют собой склады размером с футбольное поле, заполненные серверами, существуют и более компактные конфигурации, зависящие от потребностей компаний-владельцев.

Особенности ИИ-ориентированных дата-центров

С появлением искусственного интеллекта требования к дата-центрам изменились. Если раньше основная нагрузка приходилась на хранение и передачу данных, то сейчас акцент сместился на параллельные вычисления высокой интенсивности. Операции вроде матричных умножений, необходимые для современных подходов машинного обучения, выполняются на порядки быстрее на GPU (графических процессорах), которые созданы для параллельной обработки и могут выполнять тысячи операций одновременно, в отличие от CPU (центральных процессоров), работающих последовательно.

Хотя изначально GPU разрабатывались для рендеринга видеоигр в реальном времени, последние поколения, созданные специально для машинного обучения, позволяют им достигать увеличения эффективности до 40% в год. Создание специализированного оборудования, такого как TPU (тензорные процессоры) и NPU (нейропроцессоры), предназначенного именно для рабочих нагрузок ML, позволило добиться дальнейшего роста эффективности. Этот класс аппаратного обеспечения часто называют AI-ускорителями.

Хотя рабочие нагрузки для обучения и развертывания моделей ИИ различаются, они могут выполняться на одном и том же оборудовании с разными конфигурациями: обучение требует более массового параллелизма, когда сотни тысяч AI-ускорителей соединяются и действуют как единый суперкомпьютер. С другой стороны, развертывание (также известное как инференс) позволяет более гибкие конфигурации, которые могут масштабироваться в зависимости от спроса пользователей и адаптироваться к разным размерам пакетов, что означает, что оборудование часто используется не полностью.

График энергопотребления центра обработки данных искусственного интеллекта с анализом моделей использования энергии
Источник: www.huggingface.co

География и концентрация

Дата-центры существуют уже несколько десятилетий, по мере того как Всемирная паутина, электронная почта и потоковые сервисы становились все более распространенными. До 2018 года глобальная мощность дата-центров росла всего на несколько процентных пунктов в год; однако за последние 7 лет их рост систематически оставался двузначным. По последним оценкам, в мире насчитывается примерно 12 000 дата-центров, причем около 10% из них ориентированы на ИИ.

Они географически очень сконцентрированы — только в 32 странах есть дата-центры, и почти половина из них находятся в США. В штате Вирджиния самая высокая плотность дата-центров в мире — здесь расположено почти 35% всех гипермасштабируемых дата-центров мира. Этому есть несколько причин — от дешевой электроэнергии и высокоскоростного оптоволокна (включая подводные кабели), обеспечивающих быструю передачу данных, до исторических причин, таких как ранние точки взаимосвязи и местные налоговые льготы. Учитывая, что обучение моделей машинного обучения особенно требует больших совместно расположенных кластеров, это еще больше усугубило ситуацию, и Вирджиния продолжает оставаться предпочтительным местом для новых проектов гипермасштабируемых дата-центров.

Карта мира с распределением мощностей центров обработки данных для искусственного интеллекта
Источник: www.huggingface.co

Энергопотребление и экологические вызовы

Недавние дискуссии о дата-центрах сосредоточены на огромном количестве энергии, которое они потребляют, что создает нагрузку на энергосистемы в таких местах, как Вирджиния, и даже приводит к тому, что домашние потребители платят больше за свои счета за электроэнергию. В целом это связано с несколькими факторами: с одной стороны, GPU потребляют значительно больше энергии, чем CPU, причем последние поколения GPU, такие как модель Blackwell от NVIDIA, используют до 600 Вт мощности, тогда как последние CPU потребляют только 250 Вт.

Сравнительная диаграмма энергопотребления графических и центральных процессоров в ИИ-центрах обработки данных
Источник: www.huggingface.co

Кроме того, поскольку само оборудование все более концентрировано — с несколькими GPU в одной серверной стойке и сотнями серверных стоек в данном дата-центре, это пропорционально увеличивает потребляемую мощность. В то время как исторически серверные стойки CPU использовали 5-10 кВт мощности, в эпоху GPU стойки требуют в 10-20 раз больше энергии. На уровне кластера гипермасштабируемых дата-центров это может перерасти в требования до 5 и даже 10 ГВт мощности, по сравнению с 5 МВт — 2000-кратное увеличение за десятилетие.

Энергетический след и устойчивость

Согласно последним оценкам Международного энергетического агентства, 60% энергии, используемой для питания дата-центров по всему миру, вырабатывается из ископаемых видов топлива, таких как уголь и природный газ. Только в США дата-центры, по оценкам, генерируют более 105 миллионов тонн CO2e, что составляет 2% выбросов США в 2023 году. Эта оценка представляет выбросы от энергии, которую дата-центры физически потребляют (т.е. выбросы на основе местоположения), а не любые контракты, которые операторы дата-центров имеют на покупку сертификатов возобновляемой энергии (т.е. выбросы на основе рынка), которые часто сообщаются операторами.

Учитывая нагрузку, которую ИИ-дата-центры оказывают на энергосистемы (поскольку они требуют большого, концентрированного количества энергии в конкретном месте), в настоящее время существуют различные способы решения этой проблемы, такие как подходы «вне сети» (т.е. независимые микросети), которые могут использовать различные типы источников, отличные от местоположения дата-центра, включая гибридные системы, сочетающие возобновляемые источники энергии, ископаемое топливо и аккумуляторные накопители, или системы на основе ископаемого топлива, которые обеспечивают большую мощность, чем может выдержать местная сеть.

Ирония ситуации в том, что ИИ, претендующий на интеллектуальное будущее человечества, заставляет нас возвращаться к энергетическим практикам прошлого века. Пока технологические гиганты соревнуются в создании все более мощных моделей, энергосистемы целых штатов начинают трещать по швам. Реальная проблема даже не в текущем потреблении, а в том, что рост энергопотребления ИИ-инфраструктуры экспоненциально опережает развитие зеленой энергетики. Мы создаем цифровой мозг, который питается углем — довольно символично для технологий, претендующих на футуристичность.

Хотя и преувеличением является утверждение, что ИИ-дата-центры работают 24 часа в сутки, 365 дней в году при почти максимальном спросе, они действительно поддерживают интенсивный, но колеблющийся паттерн, который использует около 80% мощности для обучения и 40-60% для инференса.

По материалам Hugging Face