HRM-Text: Обучение ИИ-модели за $1500 вместо миллионов

Исследователи из Sapient представили архитектуру HRM-Text, позволившую обучить базовую модель с 1 млрд параметров всего за 1500 долларов, бросив вызов доминированию тяжелых трансформеров.

Оглавление

Архитектурный сдвиг: от памяти к логике
Практические результаты и перспективы внедрения

Индустрия искусственного интеллекта долгое время жила в парадигме грубой силы, где для создания серьезной модели требовались бюджеты небольших государств и дата-центры размером с квартал. Однако исследователи из Sapient решили поставить этот догмат под сомнение, представив архитектуру HRM-Text. Как сообщает VentureBeat, им удалось обучить базовую модель с нуля, затратив на вычислительные мощности смехотворные по меркам отрасли 1500 долларов.

Вместо того чтобы заставлять алгоритм зазубривать весь интернет, включая сомнительные дискуссии десятилетней давности, HRM-Text фокусируется на эффективности выборки. В основе лежит иерархическая рекуррентная модель (HRM), которая разделяет процесс вычислений на стратегический и исполнительный уровни. Это избавляет систему от необходимости тратить ресурсы на предсказание каждого следующего токена в сыром тексте, концентрируясь на логике выполнения задач.

Для бизнеса это означает долгожданный выход из «гонки вооружений». Сегодня корпорациям зачастую не нужен гигант, знающий биографии всех актеров Голливуда; им требуется компактное «ядро рассуждений», способное оперировать внутренними данными компании. HRM-Text с 1 миллиардом параметров показывает, что глубокое понимание логики и языка достижимо без многомиллионных инвестиций в инфраструктуру, которые обычно ведут лишь к росту задержек и зависимости от поставщиков облачных решений.

Архитектурный сдвиг: от памяти к логике

Стандартные трансформеры, доминирующие на рынке, страдают от избыточности: они тратят колоссальные ресурсы на реконструкцию самого запроса пользователя. Исследователи Sapient применили иной подход, разделив HRM на медленно меняющийся H-модуль для семантического контекста и быстрый L-модуль для итеративного уточнения. Это напоминает работу человеческого мозга, где общая стратегия и конкретные действия обрабатываются разными механизмами.

Применение рекурсии к языковым задачам всегда считалось рискованным из-за математической нестабильности — градиенты то «взрываются», то исчезают. Чтобы обуздать этот хаос, разработчики внедрили MagicNorm — специализированную технику нормализации, которая удерживает внутренние сигналы в узде при любом количестве циклов «размышлений». Дополнительно использовался метод прогрессивного разогрева: сначала модель тренировали на простых цепочках рассуждений, постепенно увеличивая их глубину.

Успех HRM-Text наглядно демонстрирует, что эпоха экстенсивного роста LLM за счет бесконечного пожирания токенов близка к завершению. Компактная модель, обученная на качественных инструкциях, эффективнее гиганта с терабайтами мусорных знаний. Однако переход на такую архитектуру потребует от инженеров пересмотра подходов к управлению кэшем и шаблонами запросов.

Практические результаты и перспективы внедрения

Цифры говорят сами за себя: модель HRM-Text была обучена всего за 1,9 дня на кластере из 16 графических процессоров. При этом на тестах MMLU она набрала 60,7%, а в математическом бенчмарке GSM8K — впечатляющие 84,5%. Это ставит 1B-модель в один ряд с решениями, которые в 2–7 раз больше по количеству параметров и в сотни раз дороже в производстве. Важно отметить, что обучающий набор составил всего 40 миллиардов токенов — крошечная доля от того, что потребляют современные версии Llama или Gemma.

Для инженеров внедрение HRM-Text сопряжено с определенной дисциплиной работы с текстом. Модель уже поддерживает библиотеку Transformers (версии 5.9.0 и выше), а интеграция с vLLM находится в разработке. Основная задача при внедрении в продакшн будет заключаться в управлении логикой KV-кэша для многопользовательских чатов, чтобы обеспечить правильное распределение внимания между промптом и ответом ассистента.

В конечном счете, когда стоимость обучения падает до полутора тысяч долларов, искусственный интеллект перестает быть вопросом наличия серверов и становится вопросом стратегии. Организациям больше не нужно спрашивать себя, могут ли они позволить себе собственную модель. Теперь вопрос звучит иначе: на каких именно бизнес-процессах и проприетарных данных эта модель должна специализироваться, чтобы стать эффективным инструментом, а не просто дорогой игрушкой.

Новости

Разработчики из Sapient смогли обучить базовую ИИ-модель всего за $1500

Архитектурный сдвиг: от памяти к логике

Практические результаты и перспективы внедрения

Еще интереснее

Исследование показало, что крупные LLM часто «мыслят» похоже и дают одинаковые ответы

ИИ-судьи не могут быть беспристрастными, потому что часто игнорируют новый контекст

Исследование объяснило, почему крупные LLM обучаются лучше, чем небольшие модели

Проблему медленной генерации LLM в многоязычной среде может решить фреймворк ADASPEC

Оставить комментарий