Оглавление

Подразделение Google Deepmind представило Gemma 4 12B — новую открытую модель, которая ломает стереотип о необходимости серверных мощностей для работы с мультимодальным контентом. Как сообщает издание The Decoder, этот ИИ способен обрабатывать текст, изображения и аудио нативно, без использования отдельных энкодеров, что значительно снижает задержки и требования к памяти.

Для запуска новинки локально достаточно ноутбука с 16 ГБ оперативной памяти, что превращает профессиональный инструмент в доступное решение для широкого круга разработчиков. Несмотря на скромные по современным меркам размеры, модель демонстрирует производительность, сопоставимую с версией 26B, которая вдвое превосходит её по количеству параметров.

Технологический минимализм и возможности архитектуры

Gemma 4 12B стала первой моделью среднего размера в линейке, получившей полноценную нативную обработку аудио. Это избавляет систему от лишних этапов конвертации данных, позволяя напрямую работать со сложными сценариями, такими как распознавание речи, генерация программного кода и глубокий анализ видеоконтента.

Согласно руководству для разработчиков, модель способна анализировать многоминутные видеоролики, сопоставляя визуальный ряд с аудиодорожкой. В ходе демонстрации система успешно обработала пятиминутный фрагмент выступления с конференции Google I/O, проанализировав 313 кадров (с частотой один кадр в секунду) одновременно со звуковым сопровождением.

Достижение Google впечатляет: перенос мультимодальности в сегмент 12B параметров при сохранении точности старших моделей — это серьезный инженерный успех. Однако запуск на 16 ГБ RAM оставляет минимальный запас для ОС и других приложений, что может стать бутылочным горлышком в реальных задачах. Ирония в том, что «легкая» модель все еще требует железа, которое в потребительском сегменте часто считается топовым. Это шаг к демократизации, но пока скорее для энтузиастов, чем для массового пользователя.

Бенчмарки и доступность для сообщества

В тестах GPQA Diamond, MMLU Pro и DocVQA новинка показала результаты, которые не только приближаются к показателям модели 26B, но и уверенно превосходят предыдущее поколение в лице Gemma 3 27B. Подобная эффективность архитектуры указывает на то, что оптимизация весов становится важнее их количественного наращивания.

Google выпустила модель под лицензией Apache 2.0, что позволяет использовать её в коммерческих целях без жестких ограничений. На текущий момент Gemma 4 12B уже доступна на популярных платформах для локального запуска и интеграции:

  • Hugging Face — для исследователей и глубокой настройки;
  • Ollama — для быстрого развертывания через терминал;
  • LM Studio — для пользователей, предпочитающих графический интерфейс.

Появление таких инструментов в открытом доступе заставляет задуматься о том, насколько быстро размывается грань между облачными гигантами и локальными вычислениями. Похоже, эпоха, когда для серьезной работы с ИИ требовалась стойка в дата-центре, окончательно уходит в прошлое, уступая место компактным и эффективным решениям.