Оглавление

Компания AI21 Labs представила Jamba Reasoning 3B — компактную модель с открытым исходным кодом, предназначенную для локального запуска на устройствах. Новая архитектура обещает революцию в области вычислений на устройствах.

Технические характеристики

Jamba Reasoning 3B построена на гибридной архитектуре SSM-Transformer и предлагает впечатляющие показатели:

  • Лицензия: Apache 2.0
  • Количество параметров: 3 миллиарда
  • Длина контекстного окна: 256 тысяч токенов
  • Максимальная обработка: до 1 миллиона токенов

Модель демонстрирует 2-5-кратное преимущество в эффективности по сравнению с конкурентами от DeepSeek, Google, Llama и Microsoft. Ключевое достижение — KV-кэш в 8 раз меньше, чем у стандартной архитектуры Transformer.

График сравнения интеллекта и скорости модели Jamba Reasoning 3B
Источник: www.ai21.com

Практические преимущества

Благодаря компактному размеру, Jamba Reasoning 3B может работать на обычных устройствах — смартфонах, ноутбуках и планшетах. На MacBook Pro с процессором M3 модель генерирует 40 токенов в секунду при длине контекста 32 тысячи токенов.

Ирония в том, что пока гиганты вроде OpenAI и Google соревнуются в размере моделей, AI21 Labs делает ставку на минимализм. Их подход напоминает историю с персональными компьютерами, которые когда-то потеснили мейнфреймы. Если они правы, будущее ИИ окажется не в облаке, а в наших карманах — и это серьезный стратегический ход против текущей монополии облачных провайдеров.

Области применения

Модель особенно эффективна в сценариях, требующих длинного контекста и локальной обработки:

  • Обработка юридических и медицинских документов
  • Автономные помощники для полевых специалистов
  • Персональные ассистенты с доступом к локальным файлам
  • Агентные системы с гибридной архитектурой
График зависимости скорости от длины контекста для модели Jamba Reasoning 3B
Источник: www.ai21.com

Экономическая целесообразность

Исследования показывают, что 40-70% задач ИИ могут выполняться небольшими языковыми моделями при 10-30-кратном снижении затрат. Jamba Reasoning 3B позволяет создавать гетерогенные вычислительные системы, где простые задачи обрабатываются локально, а сложные — в облаке.

Сравнительная диаграмма показателей качества модели Jamba Reasoning 3B
Источник: www.ai21.com

Модель доступна для загрузки через Hugging Face, Kaggle, LM Studio и llama.cpp.

По материалам AI21 Labs.