В преддверии праздников Google преподнесла технологическому сообществу сюрприз, разместив на платформе Hugging Face долгожданное семейство моделей Gemma 4. Новая линейка включает четыре весовые категории: E2B, E4B, 26B A4B и флагманскую 31B, предлагая разработчикам гибкость в выборе между компактностью и мощностью. Как сообщает Notebookcheck, ключевой особенностью релиза стал интегрированный режим «Thinking», позволяющий моделям выстраивать цепочки рассуждений перед выдачей финального ответа.
Индустрия отреагировала на релиз мгновенно: в течение нескольких часов после публикации весов Gemma 4 уже была интегрирована в популярные инструменты для локального запуска, такие как LM Studio и Unsloth. Такой темп адаптации подтверждает высокий кредит доверия к открытым наработкам Google, особенно на фоне смещения интереса профессионального сообщества в сторону эффективных моделей, способных работать без облачной инфраструктуры.
Архитектурные нюансы и производительность
В этой итерации Google сделала ставку не на количественное увеличение параметров, а на качественную оптимизацию процедур обработки данных. Согласно заявлениям компании, даже самые скромные модели новой серии демонстрируют производительность, сопоставимую с тяжеловесами предыдущего поколения Gemma 3. На практике это означает, что задачи, ранее требовавшие серверных мощностей, теперь вполне по силам современному смартфону.
Линейка выглядит следующим образом:
- Gemma-4-31B: Флагманская плотная модель для сложных рассуждений, ориентированная на серверные GPU уровня H100.
- Gemma-4-26B-A4B: Та самая MoE-модель со 128 экспертами, где при общем объеме в 26 млрд параметров активными остаются лишь 3.8 млрд.
- Gemma-4-E4B и E2B: Компактные версии, специально спроектированные для работы на мобильных устройствах и периферийных системах с ограниченными ресурсами.
Техническая реализация варьируется в зависимости от масштаба модели. Вариант 31B придерживается классической структуры, в то время как 26B-A4B использует архитектуру Mixture-of-Experts (MoE). В процессе инференса активируется лишь около четырех миллиардов параметров из общих двадцати шести, что позволяет сохранять глубину знаний при весьма умеренном потреблении ресурсов. Младшие модели E2B и E4B получили технологию Per-Layer Embeddings (PLE), оптимизирующую работу с токенами специально под мобильные процессоры.
Значительный прогресс заметен и в объеме контекстного окна. Младшие версии поддерживают 128 000 токенов, а старшие (26B A4B и 31B) способны удерживать в «памяти» до 256 000 токенов. Для эксперта это означает возможность анализировать объемную техническую документацию или сложные кодовые базы за один проход, не опасаясь потери контекста в середине процесса.
Gemma 4 демонстрирует впечатляющий прогресс в дистилляции знаний, однако за маркетинговым лоском «режима мышления» скрывается старая проблема: избыточное потребление памяти при работе с длинным контекстом. Попытка запустить 31B-модель на 128 ГБ ОЗУ превращается в опасную игру с файлом подкачки, где ИИ забирает более 80 ГБ. Google создала отличный инструмент, но его реальная мобильность пока ограничена аппетитами архитектуры к «железу».
Мультимодальность и функциональные возможности
Семейство Gemma 4 получило глубокую интеграцию мультимодальных функций, позволяя бесшовно смешивать текст и изображения в рамках одного промпта. Модели успешно справляются с распознаванием объектов, чтением PDF-файлов и оптическим распознаванием символов (OCR). Примечательно, что «граничные» модели E2B и E4B получили нативную поддержку обработки видео и аудио, что открывает путь к созданию эффективных систем распознавания речи.
Еще одним важным дополнением стала нативная поддержка Function Calling. Теперь ИИ-агент может самостоятельно вызывать программные команды или использовать внешние инструменты для завершения процесса. Это упрощает развертывание систем вроде популярного ныне OpenClaw полностью на локальных устройствах, обеспечивая приватность и независимость от API сторонних провайдеров.
Смена лицензионной политики стала, пожалуй, самым приятным дополнением к техническим характеристикам. Google отказалась от кастомных лицензий в пользу Apache 2.0. Это решение радикально снижает барьеры для входа: модели теперь можно не только использовать бесплатно, но и свободно интегрировать в проприетарные коммерческие продукты, что наверняка подстегнет волну новых стартапов на базе этого фреймворка.
Первые тесты на мини-ПК Bosgame M5 показывают, что скорость генерации 31B-модели составляет чуть более 10 токенов в секунду. Младшие версии работают значительно бодрее, преодолевая отметку в 40-60 токенов в секунду. Впрочем, пользователям стоит учитывать, что для использования максимального контекста на старших моделях даже 128 ГБ оперативной памяти могут оказаться дефицитным ресурсом.
Оставить комментарий