Google выпустила Gemma 4: модели с режимом мышления под Apache 2.0

Google представила четвертое поколение открытых моделей Gemma с интегрированным режимом рассуждения и поддержкой мультимодальности.

Оглавление

Архитектурные нюансы и производительность
Мультимодальность и функциональные возможности

В преддверии праздников Google преподнесла технологическому сообществу сюрприз, разместив на платформе Hugging Face долгожданное семейство моделей Gemma 4. Новая линейка включает четыре весовые категории: E2B, E4B, 26B A4B и флагманскую 31B, предлагая разработчикам гибкость в выборе между компактностью и мощностью. Как сообщает Notebookcheck, ключевой особенностью релиза стал интегрированный режим «Thinking», позволяющий моделям выстраивать цепочки рассуждений перед выдачей финального ответа.

Индустрия отреагировала на релиз мгновенно: в течение нескольких часов после публикации весов Gemma 4 уже была интегрирована в популярные инструменты для локального запуска, такие как LM Studio и Unsloth. Такой темп адаптации подтверждает высокий кредит доверия к открытым наработкам Google, особенно на фоне смещения интереса профессионального сообщества в сторону эффективных моделей, способных работать без облачной инфраструктуры.

Архитектурные нюансы и производительность

В этой итерации Google сделала ставку не на количественное увеличение параметров, а на качественную оптимизацию процедур обработки данных. Согласно заявлениям компании, даже самые скромные модели новой серии демонстрируют производительность, сопоставимую с тяжеловесами предыдущего поколения Gemma 3. На практике это означает, что задачи, ранее требовавшие серверных мощностей, теперь вполне по силам современному смартфону.

Линейка выглядит следующим образом:

Gemma-4-31B: Флагманская плотная модель для сложных рассуждений, ориентированная на серверные GPU уровня H100.
Gemma-4-26B-A4B: Та самая MoE-модель со 128 экспертами, где при общем объеме в 26 млрд параметров активными остаются лишь 3.8 млрд.
Gemma-4-E4B и E2B: Компактные версии, специально спроектированные для работы на мобильных устройствах и периферийных системах с ограниченными ресурсами.

Техническая реализация варьируется в зависимости от масштаба модели. Вариант 31B придерживается классической структуры, в то время как 26B-A4B использует архитектуру Mixture-of-Experts (MoE). В процессе инференса активируется лишь около четырех миллиардов параметров из общих двадцати шести, что позволяет сохранять глубину знаний при весьма умеренном потреблении ресурсов. Младшие модели E2B и E4B получили технологию Per-Layer Embeddings (PLE), оптимизирующую работу с токенами специально под мобильные процессоры.

Значительный прогресс заметен и в объеме контекстного окна. Младшие версии поддерживают 128 000 токенов, а старшие (26B A4B и 31B) способны удерживать в «памяти» до 256 000 токенов. Для эксперта это означает возможность анализировать объемную техническую документацию или сложные кодовые базы за один проход, не опасаясь потери контекста в середине процесса.

Gemma 4 демонстрирует впечатляющий прогресс в дистилляции знаний, однако за маркетинговым лоском «режима мышления» скрывается старая проблема: избыточное потребление памяти при работе с длинным контекстом. Попытка запустить 31B-модель на 128 ГБ ОЗУ превращается в опасную игру с файлом подкачки, где ИИ забирает более 80 ГБ. Google создала отличный инструмент, но его реальная мобильность пока ограничена аппетитами архитектуры к «железу».

Мультимодальность и функциональные возможности

Семейство Gemma 4 получило глубокую интеграцию мультимодальных функций, позволяя бесшовно смешивать текст и изображения в рамках одного промпта. Модели успешно справляются с распознаванием объектов, чтением PDF-файлов и оптическим распознаванием символов (OCR). Примечательно, что «граничные» модели E2B и E4B получили нативную поддержку обработки видео и аудио, что открывает путь к созданию эффективных систем распознавания речи.

Еще одним важным дополнением стала нативная поддержка Function Calling. Теперь ИИ-агент может самостоятельно вызывать программные команды или использовать внешние инструменты для завершения процесса. Это упрощает развертывание систем вроде популярного ныне OpenClaw полностью на локальных устройствах, обеспечивая приватность и независимость от API сторонних провайдеров.

Смена лицензионной политики стала, пожалуй, самым приятным дополнением к техническим характеристикам. Google отказалась от кастомных лицензий в пользу Apache 2.0. Это решение радикально снижает барьеры для входа: модели теперь можно не только использовать бесплатно, но и свободно интегрировать в проприетарные коммерческие продукты, что наверняка подстегнет волну новых стартапов на базе этого фреймворка.

Первые тесты на мини-ПК Bosgame M5 показывают, что скорость генерации 31B-модели составляет чуть более 10 токенов в секунду. Младшие версии работают значительно бодрее, преодолевая отметку в 40-60 токенов в секунду. Впрочем, пользователям стоит учитывать, что для использования максимального контекста на старших моделях даже 128 ГБ оперативной памяти могут оказаться дефицитным ресурсом.

Новости

На Hugging Face уже доступна новая линейка компактных моделей Gemma 4 с «мышлением»

Архитектурные нюансы и производительность

Мультимодальность и функциональные возможности

Еще интереснее

Alibaba выпустила Qwen 3.6-Plus — новую флагманскую LLM для сложных запросов и кодинга

В открытый доступ выложили модель HyperNova 60B 2602 — сжатую версию gpt-oss-120B

Исследователи обнаружили, что ИИ проявляет склонность к самообороне и защите «собратьев»

OpenAI закрыла сразу 3 перспективных проекта, пока Anthropic строит рабочую экосистему

Оставить комментарий