Оглавление
Компания WRITER представила семейство открытых языковых моделей Palmyra-mini с числом параметров от 1,5 до 1,7 миллиарда, оптимизированных для максимальной пропускной способности и практического мышления. Эти модели способны работать практически где угодно — приватно, дёшево и с впечатляющей скоростью.
Инженерный прорыв в эффективности
Иногда технологический прорыв измеряется не абсолютными масштабами, а эффективностью на параметр. Palmyra-mini — именно такой случай: компактная модель на 1,5 миллиарда параметров демонстрирует осмысленные рассуждения, сильные результаты на бенчмарках и ошеломляющую пропускную способность на одном GPU. Это достижение заставляет переосмыслить место интеллекта в современном AI-стеке.
Пока все гонятся за терапараметрами, WRITER делает элегантный ход в противоположном направлении. Их 1,5-миллиардная модель — это не урезанная версия чего-то большого, а специально спроектированная система, где каждый параметр работает на износ. Особенно впечатляет, как они смогли сохранить конкурентные способности к рассуждению при такой скорости — обычно это взаимоисключающие параметры.
Три специализированные версии
Разработчики предлагают три версии модели, каждая из которых оптимизирована для конкретных задач:
- Palmyra-mini 1.7B: легковесная базовая модель без усиленных возможностей мышления
- Palmyra-mini-thinking-a 1.7B: оптимизирована для сложных логических рассуждений и принятия решений
- Palmyra-mini-thinking-b 1.5B: специализируется на математических вычислениях и точных задачах рассуждения
Производительность, которая впечатляет
На одном GPU H200 при 512-потоковой конкуренции модель демонстрирует:
- 8,39 инференсов в секунду
- ~15,6 тысяч токенов в секунду
- ~29 мс задержки между токенами
- ~1,3 с до первого токена
- ~60 с end-to-end для последовательностей 2K входных / 1,8K выходных токенов
Даже при 8K входных токенах модель сохраняет 5,45 инференсов в секунду и ~9,8 тысяч токенов в секунду — впечатляющее сохранение производительности при росте длины последовательностей.
Сильные результаты на бенчмарках
На стандартных тестах рассуждения и знаний модель показывает результаты, сопоставимые с гораздо более крупными конкурентами:
- AIME24 — 59,42
- AIME25 — 49,68
- GPQA — 42,00
- HMMT25 — 27,86
- MMLU-PRO — 55,49
- MATH500 — 93,80
Эти результаты показывают, что модель не только быстрая, но и полезно точная для задач, которые действительно важны пользователям. Её интеллектуальные способности иногда превосходят модели на 8B и 32B параметров, а в редких случаях достигают уровня 70B моделей.
Открытая модель для приватных развертываний
Компания делает семейство Palmyra-mini полностью открытым, присоединяясь к ранее выпущенным специализированным моделям Palmyra Fin и Palmyra Med. Это даёт разработчикам и исследователям возможность тонкой настройки, изучения и инноваций без доступа к массивным вычислительным кластерам.
Модель предоставляет инженерным командам:
- Прозрачную конфигурацию и воспроизводимые оценки
- Возможность приватного запуска на собственной инфраструктуре
- Гибкость для сценариев с требованиями резидентности данных и регуляторными ограничениями
Практические применения
Palmyra-mini не заменяет крупные модели, а дополняет их, создавая вездесущий слой для частей рабочего процесса, чувствительных к скорости и стоимости:
- Оффлайн-ассистенты: работа без интернета в путешествиях, полевых условиях или защищённых объектах
- Высокопроизводительные бэкенд-копилоты: модерация контента, факт-чекинг, скоринг и роутинг с задержками менее 100 мс
- Оркестрация по стоимости и задержкам: интеллектуальное распределение задач между маленькими и большими моделями
Инференс может быть в 10-50 раз быстрее с временем ответа менее 100 миллисекунд, что кардинально меняет экономику массовых AI-приложений.
По сообщению Writer, модель уже вызывает интерес для развертываний на устройствах, что открывает новые возможности для локального интеллекта, сохраняющего конфиденциальность.
Оставить комментарий