Оглавление

На фоне взрывного роста требований к инфраструктуре для искусственного интеллекта Meta* анонсировала серию технологических прорывов в области сетевого оборудования. На саммите Open Compute Project компания представила эволюцию своих архитектур для построения кластеров масштаба целых дата-центров.

Двухуровневая DSF: масштабирование до 18 тысяч ускорителей

Архитектура Disaggregated Scheduled Fabric (DSF) получила серьезное обновление — теперь это двухуровневая система, способная объединять до 18 432 вычислительных ускорителей в единый неблокирующий кластер. Такие масштабы становятся необходимыми для тренировки современных языковых моделей, требующих координации тысяч GPU и специализированных процессоров.

Схема двухуровневой архитектуры Meta OCP 2025 DSF

Новая архитектура поддерживает открытый Ethernet-based RoCE интерфейс и работает с различными ускорителями, включая собственные разработки Meta* MTIA и решения других вендоров.

Non-Scheduled Fabrics для гигаваттных кластеров

Параллельно с DSF Meta разработала принципиально новую архитектуру NSF (Non-Scheduled Fabric), основанную на коммутаторах Ethernet с малой буферизацией. Ключевые преимущества:

  • Сверхнизкая задержка передачи данных
  • Адаптивная маршрутизация для эффективного балансирования нагрузки
  • Возможность построения кластеров мощностью в гигаватты, таких как Prometheus
Трехуровневая архитектура фабрики Meta OCP 2025 NSF

Новые платформы коммутаторов

Компания расширила портфель 51.2 Тбит/с коммутаторов, добавив Minipack3N на базе ASIC NVIDIA Spectrum-4. Это решение использует ту же системную архитектуру, что и Minipack3, но с альтернативной кремниевой платформой, что усиливает диверсификацию поставщиков в критически важной инфраструктуре.

Открытые стандарты в сетевом оборудовании — это не просто красивые слова. Meta демонстрирует, как стратегия деагрегации позволяет строить инфраструктуру, которая не привязана к одному вендору и может масштабироваться практически бесконечно. Интересно, что даже в условиях жесткой конкуренции в области ИИ компании вынуждены сотрудничать на уровне «железа» — иначе стоимость владения становится запредельной.

Оптические инновации

Meta также представила новые оптические решения: 2x400G FR4 LITE для внутридатацентровых соединений до 500 метров и DR4 оптику для подключений между хостами и коммутаторами. Эти разработки направлены на снижение стоимости оптических компонентов при сохранении производительности.

Инициатива ESUN: Ethernet для масштабируемых сетей

В рамках OCP запущена новая рабочая группа ESUN (Ethernet for Scale-Up Networking), где Meta выступает одним из основателей. Цель — адаптировать зрелую экосистему Ethernet для высокопроизводительных соединений в ИИ-кластерах, создавая альтернативу проприетарным решениям типа InfiniBand.

Эволюция программного обеспечения также не осталась без внимания: OCP-SAI и FBOSS продолжают развиваться для поддержки новых архитектур, обеспечивая единую программную основу для разнородного оборудования.

Эти анонсы демонстрируют, что гонка в области ИИ-инфраструктуры переходит на уровень сетевых технологий, где пропускная способность и задержки становятся критическими факторами для тренировки моделей следующего поколения.

По материалам engineering.fb.com.

*Meta признана экстремистской и запрещена в РФ