Оглавление

Разработчики крупнейших нейросетей давно столкнулись с тем, что физические ограничения сетевого оборудования становятся «бутылочным горлышком» при обучении моделей. Как сообщает The Decoder, компания OpenAI в партнерстве с AMD, Broadcom, Intel, Microsoft и NVIDIA разработала новый сетевой протокол под названием MRC (Multipath Reliable Connection), призванный радикально изменить архитектуру обмена данными в суперкомпьютерах.

Суть проблемы кроется в синхронности обучения: если один пакет данных застревает в перегруженном коммутаторе, простаивают тысячи дорогостоящих GPU. Протокол MRC решает эту задачу, распределяя пакеты данных одновременно по сотням сетевых путей, что делает передачу информации более предсказуемой и устойчивой к отказам отдельных узлов системы.

Технологический прорыв в архитектуре сетей

Традиционные сетевые структуры при возникновении сбоев могут тратить десятки секунд на перенастройку маршрутов, что для обучения GPT-5 или аналогичных моделей равносильно катастрофе. Новый стандарт MRC способен обнаруживать неполадки и перенаправлять трафик за микросекунды, позволяя инфраструктуре оставаться работоспособной даже во время планового обслуживания или внезапных поломок оборудования.

Интересно, что OpenAI уже внедрила этот протокол на своих самых мощных площадках, включая суперкомпьютеры Microsoft Fairwater и объекты в Абилине. Переход на двухъярусную архитектуру Ethernet-коммутаторов вместо привычных трех-четырех уровней позволил компании не только снизить задержки, но и существенно сократить энергопотребление при объединении более 100 000 графических процессоров.

Спецификации MRC уже опубликованы через Open Compute Project (OCP), что открывает дорогу к стандартизации технологии. В процессе разработки участвовали почти все ключевые игроки рынка полупроводников, что намекает на серьезные амбиции протокола стать фундаментом для ИИ-инфраструктуры следующего поколения.

Технология не решает фундаментальную проблему колоссального аппетита моделей к данным, лишь отодвигая стену, в которую упрется индустрия. Это отличный пластырь на артерию суперкомпьютера, который, впрочем, не делает саму архитектуру обучения менее хрупкой и зависимой от централизации. Рынок получил временную передышку, но гонка за эффективностью просто перейдет с уровня пакетов на уровень алгоритмов.

Практическое применение и устойчивость систем

Во время обучения одной из последних моделей для ChatGPT инженерам потребовалось перезагрузить четыре критически важных коммутатора. В обычных условиях это потребовало бы сложной координации и, скорее всего, остановки процесса. Благодаря MRC система просто не заметила «исчезновения» части оборудования, продолжая вычисления в штатном режиме.

Для профессионалов это означает переход от хрупких систем, где каждая ошибка ведет к многомиллионным потерям, к более адаптивным структурам. Если раньше сеть была пассивной трубой для данных, то теперь она становится активным и «умным» участником процесса обучения, способным к самовосстановлению без участия человека.