Компания Writer представила три новые открытые модели в семействе Palmyra-mini, которые обещают высокую производительность при скромных размерах от 1.5 до 1.7 миллиардов параметров. Эти модели специально разработаны для эффективного логического вывода и подходят для широкого спектра приложений.
Три специализированные модели
- palmyra-mini — базовая модель без специализации на логических рассуждениях
- palmyra-mini-thinking-a — вариант для сложных логических задач и рассуждений
- palmyra-mini-thinking-b — специализированная модель для математических вычислений и анализа
Модели «thinking» обучены с использованием метода Chain of Thought (CoT), что значительно улучшает их способности к логическим рассуждениям.
Доступные форматы
Для удобства разработчиков доступны квантованные версии в форматах GGUF и MLX:
- palmyra-mini-GGUF
- palmyra-mini-thinking-a-GGUF
- palmyra-mini-thinking-b-GGUF
- palmyra-mini-MLX-BF16
- palmyra-mini-thinking-a-MLX-BF16
- palmyra-mini-thinking-b-MLX-BF16
Результаты тестирования
Модели демонстрируют впечатляющие результаты на стандартных бенчмарках:
- palmyra-mini: 52.6% на Big Bench Hard (exact_match) — отличный результат для базовой модели
- palmyra-mini-thinking-a: 82.87% на GSM8K (strict_match) — выдающиеся способности к логическим рассуждениям
- palmyra-mini-thinking-b: 92.5% на AMC23 — лучшие показатели в математических задачах
Тренд на компактные, но мощные модели набирает обороты — это ответ индустрии на растущие потребности в эффективном логическом выводе. Palmyra-mini демонстрирует, что маленькие модели могут составить конкуренцию гигантам в специализированных задачах, особенно когда дело касается логических рассуждений и математики. Интересно, что reinforcement learning улучшил точность одиночных прогонов, но снизил разнообразие выводов — классическая дилемма точности против креативности.
Все модели основаны на архитектуре Qwen и совместимы с популярными фреймворками логического вывода, включая vLLM, SGLang, TRTLLM и TGI. Для модели palmyra-thinking-b использовалась базовая модель NVIDIA OpenReasoning-Nemotron-1.5B с последующим дообучением с подкреплением.
Сообщает Hugging Face.
Оставить комментарий