Оглавление

Компания WRITER представила семейство открытых языковых моделей Palmyra-mini с числом параметров от 1,5 до 1,7 миллиарда, оптимизированных для максимальной пропускной способности и практического мышления. Эти модели способны работать практически где угодно — приватно, дёшево и с впечатляющей скоростью.

Инженерный прорыв в эффективности

Иногда технологический прорыв измеряется не абсолютными масштабами, а эффективностью на параметр. Palmyra-mini — именно такой случай: компактная модель на 1,5 миллиарда параметров демонстрирует осмысленные рассуждения, сильные результаты на бенчмарках и ошеломляющую пропускную способность на одном GPU. Это достижение заставляет переосмыслить место интеллекта в современном AI-стеке.

Пока все гонятся за терапараметрами, WRITER делает элегантный ход в противоположном направлении. Их 1,5-миллиардная модель — это не урезанная версия чего-то большого, а специально спроектированная система, где каждый параметр работает на износ. Особенно впечатляет, как они смогли сохранить конкурентные способности к рассуждению при такой скорости — обычно это взаимоисключающие параметры.

Три специализированные версии

Разработчики предлагают три версии модели, каждая из которых оптимизирована для конкретных задач:

  • Palmyra-mini 1.7B: легковесная базовая модель без усиленных возможностей мышления
  • Palmyra-mini-thinking-a 1.7B: оптимизирована для сложных логических рассуждений и принятия решений
  • Palmyra-mini-thinking-b 1.5B: специализируется на математических вычислениях и точных задачах рассуждения

Производительность, которая впечатляет

На одном GPU H200 при 512-потоковой конкуренции модель демонстрирует:

  • 8,39 инференсов в секунду
  • ~15,6 тысяч токенов в секунду
  • ~29 мс задержки между токенами
  • ~1,3 с до первого токена
  • ~60 с end-to-end для последовательностей 2K входных / 1,8K выходных токенов

Даже при 8K входных токенах модель сохраняет 5,45 инференсов в секунду и ~9,8 тысяч токенов в секунду — впечатляющее сохранение производительности при росте длины последовательностей.

Сильные результаты на бенчмарках

На стандартных тестах рассуждения и знаний модель показывает результаты, сопоставимые с гораздо более крупными конкурентами:

  • AIME24 — 59,42
  • AIME25 — 49,68
  • GPQA — 42,00
  • HMMT25 — 27,86
  • MMLU-PRO — 55,49
  • MATH500 — 93,80

Эти результаты показывают, что модель не только быстрая, но и полезно точная для задач, которые действительно важны пользователям. Её интеллектуальные способности иногда превосходят модели на 8B и 32B параметров, а в редких случаях достигают уровня 70B моделей.

Открытая модель для приватных развертываний

Компания делает семейство Palmyra-mini полностью открытым, присоединяясь к ранее выпущенным специализированным моделям Palmyra Fin и Palmyra Med. Это даёт разработчикам и исследователям возможность тонкой настройки, изучения и инноваций без доступа к массивным вычислительным кластерам.

Модель предоставляет инженерным командам:

  • Прозрачную конфигурацию и воспроизводимые оценки
  • Возможность приватного запуска на собственной инфраструктуре
  • Гибкость для сценариев с требованиями резидентности данных и регуляторными ограничениями

Практические применения

Palmyra-mini не заменяет крупные модели, а дополняет их, создавая вездесущий слой для частей рабочего процесса, чувствительных к скорости и стоимости:

  • Оффлайн-ассистенты: работа без интернета в путешествиях, полевых условиях или защищённых объектах
  • Высокопроизводительные бэкенд-копилоты: модерация контента, факт-чекинг, скоринг и роутинг с задержками менее 100 мс
  • Оркестрация по стоимости и задержкам: интеллектуальное распределение задач между маленькими и большими моделями

Инференс может быть в 10-50 раз быстрее с временем ответа менее 100 миллисекунд, что кардинально меняет экономику массовых AI-приложений.

По сообщению Writer, модель уже вызывает интерес для развертываний на устройствах, что открывает новые возможности для локального интеллекта, сохраняющего конфиденциальность.