Оглавление

Парадоксально, но Nvidia — главный бенефициар бума больших языковых моделей — призывает индустрию к трезвости: агентные системы эффективнее на малых моделях, а гигантские LLM съедают бюджеты без смысла. Одно из исследований показало: модели до 10B параметров справляются с большинством задач агентов, сокращая затраты в 10-30 раз.

Экономика против гигантомании

Рынок API для агентных систем оценивается в $5.6 млрд, но инфраструктурные расходы достигают $57 млрд — разрыв десятикратный. В Nvidia называют это «глубоко укоренившейся неэффективностью». Примеры:

  • Phi-2 от Microsoft превосходит 30B модели в логике и коде при 15-кратном ускорении
  • 9B Nemotron-H от Nvidia сравнимы по точности с 30B аналогами
  • Deepseek-R1-Distill-Qwen-7B и RETRO от DeepMind обходят проприетарных гигантов в специализированных тестах

Ключевые преимущества SLM:

  • Запуск на потребительском железе — контроль данных и нулевая задержка
  • Тонкая настройка за часы вместо недель
  • Высокая эффективность параметров против «спящих нейронов» в LLM

Ирония в том, что Nvidia подрывает собственную бизнес-модель, построенную на продаже GPU для тренировки монстров. Но расчет верен: массовое внедрение ИИ в устройства и бизнес-процессы возможно только через экономичные SLM. Их аргумент о «моральном императиве» в условиях климатического кризиса — не риторика. Когда Mistral публикует отчеты по энергопотреблению, а затраты на LLM-инфраструктуру зашкаливают, игнорировать SLM становится аморально. Риск лишь в том, что индустрия, как наркоман, не сможет отказаться от дофаминовых уколов хайпа вокруг гигамоделей.

Flowchart: Comparison of two AI agent architectures with direct tool connection vs. controller-based approach.

Барьеры вне технологий

Почему малые модели не доминируют? Исследователи видят три проблемы:

  1. Инвестиции в централизованную LLM-инфраструктуру
  2. Фетишизация бенчмарков, не отражающих реальную эффективность
  3. Неосведомленность о возможностях SLM

Nvidia предлагает 6-шаговый переход:

  1. Сбор данных
  2. Фильтрация и курация
  3. Кластеризация задач
  4. Выбор SLM
  5. Тонкая настройка
  6. Постоянное улучшение

В тестах 40-70% запросов в системах типа MetaGPT, Open Operator и Cradle успешно обрабатывались SLM. Компания собирает фидбэк и обещает опубликовать результаты. Если даже вендор, наживающийся на GPU-голоде, кричит «хватит кормить монстров» — возможно, индустрия действительно переломный момент.