Оглавление

Сообщает Hugging Face, что инженеры нашли способ собрать мощный AI-кластер за половину стоимости готового решения. Ключом стала новая линейка аппаратного обеспечения Tenstorrent и творческий подход к использованию устаревшего майнинг-оборудования.

Новое железо открывает возможности для бюджетных кластеров

Компания Tenstorrent недавно выпустила линейку продуктов Blackhole, которую описывает как «бесконечно масштабируемую». Эти карты соединяются напрямую через кабели QSFP-DD с портами на самом устройстве, что устраняет необходимость в высокоскоростных PCIe линиях — одном из основных затратных компонентов при сборке AI-тренировочных систем с несколькими картами.

Поскольку PCIe линии нужны только для ввода/вывода данных, можно использовать устаревшее оборудование для майнинга криптовалют (обычно уже укомплектованное блоками питания ~3000W для карт мощностью 300W) для размещения 4-8 карт одновременно. Каждая карта поддерживает 32GB GDDR6 и обеспечивает производительность 774 FLOPS FP8 — достойное значение для цены в $1400 за штуку. Если учесть сетевые возможности 4x800G портов, это решение становится настоящим монстром масштабирования.

Любопытный пример того, как устаревшее майнинговое железо обретает вторую жизнь в эпоху AI. Хотя решение выглядит кустарным, экономия в 50% по сравнению с готовым TT-QuietBox заставляет задуматься о целесообразности покупки «официальных» решений для экспериментов и тестирования. Впрочем, для продакшена я бы всё же рекомендовал сертифицированные конфигурации — слишком много подводных камней может всплыть при такой сборке.

Список компонентов

Для сборки системы потребуется:

Общая стоимость составляет около $6000, что почти в два раза дешевле $12000 за готовый TT-QuietBox с теоретически аналогичными вычислительными способностями для AI!

Особенности настройки

В BIOS хостовой системы необходимо настроить следующие опции:

  • Включить Above 4G Decoding (если доступно)
  • Активировать Resizable BAR (стандартная практика для PCIe)
  • На Linux-хостах Tenstorrent требует AER «OS First» в BIOS для работы TT-SMI

Питание и сетевая топология

Для каждой карты потребуется один адаптер 8 pin to 12VHPWR. Сетевая топология для этой установки будет представлять полную сетку в следующей конфигурации:

Диаграмма топологии сети для конфигурации сетки карт Tenstorrent Blackhole
  • A:QSFP1 ↔ B:QSFP1
  • A:QSFP2 ↔ C:QSFP1
  • B:QSFP2 ↔ D:QSFP1
  • C:QSFP2 ↔ D:QSFP2
  • A:QSFP3 ↔ D:QSFP3 (диагональное соединение)
  • B:QSFP3 ↔ C:QSFP3 (диагональное соединение)

По возможности избегайте резких изгибов этих кабелей — они могут увеличить частоту ошибок при передаче данных.

Остальную часть настройки можно найти в официальном руководстве Tenstorrent: https://docs.tenstorrent.com/getting-started/README.html