OpenAI и партнеры представили протокол MRC для суперкомпьютеров

OpenAI вместе с лидерами ИТ-индустрии представила протокол MRC, который позволяет объединять более 100 000 GPU и мгновенно восстанавливать связь при сбоях.

Оглавление

Технологический прорыв в архитектуре сетей
Практическое применение и устойчивость систем

Разработчики крупнейших нейросетей давно столкнулись с тем, что физические ограничения сетевого оборудования становятся «бутылочным горлышком» при обучении моделей. Как сообщает The Decoder, компания OpenAI в партнерстве с AMD, Broadcom, Intel, Microsoft и NVIDIA разработала новый сетевой протокол под названием MRC (Multipath Reliable Connection), призванный радикально изменить архитектуру обмена данными в суперкомпьютерах.

Суть проблемы кроется в синхронности обучения: если один пакет данных застревает в перегруженном коммутаторе, простаивают тысячи дорогостоящих GPU. Протокол MRC решает эту задачу, распределяя пакеты данных одновременно по сотням сетевых путей, что делает передачу информации более предсказуемой и устойчивой к отказам отдельных узлов системы.

Технологический прорыв в архитектуре сетей

Традиционные сетевые структуры при возникновении сбоев могут тратить десятки секунд на перенастройку маршрутов, что для обучения GPT-5 или аналогичных моделей равносильно катастрофе. Новый стандарт MRC способен обнаруживать неполадки и перенаправлять трафик за микросекунды, позволяя инфраструктуре оставаться работоспособной даже во время планового обслуживания или внезапных поломок оборудования.

Интересно, что OpenAI уже внедрила этот протокол на своих самых мощных площадках, включая суперкомпьютеры Microsoft Fairwater и объекты в Абилине. Переход на двухъярусную архитектуру Ethernet-коммутаторов вместо привычных трех-четырех уровней позволил компании не только снизить задержки, но и существенно сократить энергопотребление при объединении более 100 000 графических процессоров.

Спецификации MRC уже опубликованы через Open Compute Project (OCP), что открывает дорогу к стандартизации технологии. В процессе разработки участвовали почти все ключевые игроки рынка полупроводников, что намекает на серьезные амбиции протокола стать фундаментом для ИИ-инфраструктуры следующего поколения.

Технология не решает фундаментальную проблему колоссального аппетита моделей к данным, лишь отодвигая стену, в которую упрется индустрия. Это отличный пластырь на артерию суперкомпьютера, который, впрочем, не делает саму архитектуру обучения менее хрупкой и зависимой от централизации. Рынок получил временную передышку, но гонка за эффективностью просто перейдет с уровня пакетов на уровень алгоритмов.

Практическое применение и устойчивость систем

Во время обучения одной из последних моделей для ChatGPT инженерам потребовалось перезагрузить четыре критически важных коммутатора. В обычных условиях это потребовало бы сложной координации и, скорее всего, остановки процесса. Благодаря MRC система просто не заметила «исчезновения» части оборудования, продолжая вычисления в штатном режиме.

Для профессионалов это означает переход от хрупких систем, где каждая ошибка ведет к многомиллионным потерям, к более адаптивным структурам. Если раньше сеть была пассивной трубой для данных, то теперь она становится активным и «умным» участником процесса обучения, способным к самовосстановлению без участия человека.

Новости

OpenAI и техногиганты представили MRC — новый сетевой стандарт для масштабирования ИИ

Технологический прорыв в архитектуре сетей

Практическое применение и устойчивость систем

Еще интереснее

OpenAI и Broadcom представили чип Jalapeño для работы с нейросетями

Microsoft строит в Техасе дата-центр для ИИ на 2 ГВт с собственной газовой электростанцией

Ineffable Intelligence будет разрабатывать «суперученика» в кластере на GPU Vera Rubin

Intel может стать резервной площадкой для Google и Nvidia, пока у TSMC дефицит мощностей

Оставить комментарий