Факты

Название Meta Llama
Официальный сайт llama.com
Документация llama.com/docs
Чат meta.ai
Страна США
Разработчик Meta Platforms, Inc. (Meta Superintelligence Labs)
Доступы

Ссылки

История релизов

  • 2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
  • 2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
  • 2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 405B при меньшей цене и задержке; 86.0% MMLU, 88.4% HumanEval, 77.0% MATH — ссылка
  • 2025-04-05 — релиз Llama 4 Maverick и Scout: нативно мультимодальные, архитектура «смесь экспертов», контекст до 1M/10M токенов, сильные показатели на многих тестах — ссылка
  • 2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
  • 2025-12 — Llama 4.5/4.X в разработке Meta Superintelligence Labs; по состоянию на начало 2026 года модель не выпущена, Meta заявляет о планах дальнейших улучшений Llama 4 в 2026 году — ссылка

Модели (API и открытые веса)

ID (для API / загрузки) Тип / режим Контекст Параметры (активные/всего) Кратко Поддержка / ограничения Цены ($/1M токенов, Together.ai) Документация
Llama 4 Maverick Мультимодальная (смесь экспертов, флагманская) до 1,000,000 17 млрд активных / ~400 млрд всего (128 экспертов) Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.
  • Нативно мультимодальная (вход: текст + изображения, выход: текст)
  • Открытые веса (лицензия Llama 4 Community)
  • Архитектура «смесь экспертов»; эффективные 17B активных параметров
  • Коммерческое использование: для организаций с >700 млн MAU требуется отдельное разрешение Meta
  • Доступна через Together.ai, Groq, AWS, Azure, IBM watsonx, Oracle Cloud, Hugging Face и др.
  • Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, веб и отдельное приложение Meta AI)
  • Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями, зарегистрированными в ЕС
вход: $0.27; выход: $0.85 документация
Llama 4 Scout Мультимодальная (смесь экспертов, эффективная, длинный контекст) до 10,000,000 17 млрд активных / 109 млрд всего (16 экспертов) Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); контекст до 10 млн токенов; баланс качества, стоимости и скорости. Часто используется как выбор для длинного контекста и периферийных сценариев.
  • Нативно мультимодальная
  • Открытые веса (лицензия Llama 4 Community)
  • Оптимизирована для скорости и развёртывания на периферии и в облаке
  • Коммерческие ограничения: дополнительная лицензия для организаций с >700 млн MAU
  • Квантование в int4/int8 поддерживается многими фреймворками
  • Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчикам, зарегистрированным в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС
вход: $0.18; выход: $0.59 документация
Llama 4 Behemoth Мультимодальная (смесь экспертов, модель-учитель / сверхкрупная) не указано (внутренняя модель) 288 млрд активных / ~2 трлн всего (16 экспертов) Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на STEM-задачах (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на начало 2026 года не имеет открытых весов и недоступна для коммерческого использования.
  • Нативно мультимодальная
  • Статус: внутренняя модель и ограниченное исследовательское превью; нет публичного API с открытыми весами
  • Требует крайне значительных вычислительных ресурсов; рассматривалась как кандидат для будущих флагманских релизов
  • Используется для дистилляции и обучения Llama 4 Scout/Maverick
не указано объявление
Meta-Llama-3.3-70B-Instruct Текст (открытые веса, оптимизированная) до 128,000 70 млрд Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 88.4% HumanEval, ~77% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.
  • Только текстовая модель (текст на входе / текст на выходе)
  • Открытые веса (лицензия Llama 3 Community)
  • Отличное соотношение цена/качество для текстовых и программных задач
  • Поддерживает локальный и облачный вывод моделей, контекст до 128K
  • Широко доступна через Together, Groq, DeepInfra, Fireworks, Azure, CoreWeave и др.
~$0.10 вход; ~$0.40 выход (через популярных провайдеров) документация
Meta-Llama-3.1-70B-Instruct Текст (открытые веса) до 128,000 70 млрд Сбалансированная модель 70B семейства 3.1; 66.4% MMLU Pro, ~80.5% HumanEval. Постепенно вытесняется Llama 3.3 70B, но остаётся доступной и используется там, где уже интегрирована.
  • Локальный и облачный вывод моделей
  • Модель остаётся доступной и поддерживается в экосистеме
  • Для новых проектов обычно рекомендуется Llama 3.3 70B вместо неё
бесплатно (открытые веса) или через API-провайдеров документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса, крупная) до 128,000 405 млрд Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.4% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.
  • Только текст
  • Коммерческое использование — по лицензии Meta Llama 3
  • Доступ через партнёров (например, Oracle, Azure, IBM) или для локального развёртывания
  • Требует значительных ресурсов (сотни ГБ памяти в высокоточных форматах); для экономии обычно используется квантование
бесплатно (загрузка весов) документация
Meta-Llama-3.2-90B-Vision-Instruct Текст + изображения (мультимодальная) до 128,000 90 млрд Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.
  • Вход: текст + изображения; выход: текст
  • Фокус: распознавание, визуальное рассуждение, работа с документами
  • Открытые веса
  • Поддерживается сообществом и провайдерами; для новых проектов часто сравнивается с Llama 4 Scout
бесплатно (открытые веса) документация
Meta-Llama-3.2-11B-Vision-Instruct Текст + изображения (лёгкая мультимодальная) до 128,000 11 млрд Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для периферийных приложений, где Llama 4 Scout слишком тяжела.
  • Оптимизирована для мобильных и периферийных устройств
  • Поддерживает квантование (int4/int8) и выполнение в ограниченных средах
  • Открытые веса
бесплатно (открытые веса) документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) до 128,000 3 млрд Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.
  • Поддерживает квантование и работу на устройстве
  • Многоязычность поддерживается на уровне Llama 3.x
  • Открытые веса
бесплатно (открытые веса) документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) до 8,000 1 млрд Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер.
  • Ориентирована на мобильные устройства и микросервисы
  • Лицензия Llama 3 Community
  • Открытые веса
бесплатно (открытые веса) документация
Llama Guard 4 Мультимодальный классификатор безопасности ~160,000 12 млрд Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз 30 апреля 2025 года; используется как основная защита в стеке Llama 4.
  • Мультимодальная (поддерживает анализ текста и изображений)
  • Плотная архитектура (производный вариант от Llama 4 Scout)
  • Может работать на одном современном GPU; поддерживается крупными провайдерами
  • Открытые веса
  • Поддерживает множество языков и таксономию категорий MLCommons
  • В независимых тестах при связке с Llama 4 блокирует ~66% атакующих запросов; остаточный риск сохраняется, поэтому рекомендуется многоуровневая защита
бесплатно (открытые веса; коммерческий API — от ~$0.18/1M токенов у провайдеров) документация

Ключевые особенности

  • Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads
  • Llama 4 — нативно мультимодальная линейка с архитектурой «смесь экспертов» (Scout и Maverick с апреля 2025 года)
  • Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов, Maverick до 1 млн; Llama 3.x до 128K
  • Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack)
  • Llama API (превью) и Llama Stack как опорные продукты экосистемы; также интеграции с партнёрскими API (Together, Groq, DeepInfra, Lambda, CentML, Cerebras, Azure, AWS и др.)
  • Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (VirtueGuard, Detoxio и др.)
  • Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.)
  • Llama 4.X (условная «Llama 4.5») находится в активной разработке Meta Superintelligence Labs; релиз ожидается в 2026 году, Meta заявляет цель улучшить качество Llama 4 и расширить мультимодальные возможности
  • Meta AI чат (meta.ai) и отдельное приложение Meta AI используют Llama 4 в WhatsApp, Messenger, Instagram, Facebook и на вебе

Рекомендации по применению

  • Llama 4 Maverick / Scout — универсальные ассистенты, мультимодальные приложения (текст + изображения), программирование, агентные системы, задачи с длинным контекстом (открытая альтернатива закрытым моделям высокого класса)
  • Llama 3.3 70B — текстовые задачи, программирование, многоязычные сценарии там, где не нужны изображения и 10M-контекст; оптимальное соотношение цена/качество среди крупных текстовых моделей
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, работа на устройстве и периферии, когда Llama 4 Scout не помещается в бюджет или по ресурсам
  • Llama 3.2 (1B/3B) — низкая задержка, мобильные приложения, вычисления на периферии, офлайн-сценарии
  • Llama 4 Behemoth (если будет публично выпущена) — конкуренция с GPT-5 и другими флагманскими моделями в сложных STEM-задачах и исследовательских сценариях

Ограничения и риски

  • Лицензионные требования: для MAU > 700 млн требуется отдельное разрешение Meta, которое может не быть выдано
  • Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4
  • Llama 4 Behemoth — по состоянию на февраль 2026 года остаётся в статусе внутренней/исследовательской модели, без открытых весов и без коммерческого использования
  • Реальный длинный контекст: несмотря на заявленные 10M токенов у Scout, независимые тесты фиксируют деградацию качества уже при гораздо меньших длинах контекста; для практики рекомендуется тщательно тестировать сценарии > 200K токенов
  • Архитектура «смесь экспертов» упрощает масштабирование по качеству, но усложняет развёртывание и требует продуманной оркестрации и мониторинга ресурсов, даже при квантовании
  • Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 снижает риск, но не устраняет его полностью
  • Официальное ценообразование Llama API от Meta остаётся в режиме превью; большинство пользователей получают доступ к моделям через партнёрские платформы и локальный вывод моделей
  • Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах

Сравнение цен

Чат (подписка)

Meta не предоставляет собственный массовый платный чат-сервис наподобие ChatGPT Plus. Meta AI (meta.ai) и отдельное приложение Meta AI доступны бесплатно; монетизация сосредоточена на инфраструктуре и коммерческом API (Llama API) и партнёрских платформах.

API (модели через Together.ai и партнёров)

Провайдер Модель вход, $/1M выход, $/1M Ссылка
Meta (открытые веса) Llama 4 Maverick бесплатно (загрузка) бесплатно (загрузка) huggingface.co
Together.ai Llama 4 Maverick $0.27 $0.85 цены
Groq Llama 4 Scout $0.11 $0.34 цены
Together.ai Llama 4 Scout $0.18 $0.59 цены
Together.ai Llama 3.3 70B $0.10 $0.40 цены
Meta (открытые веса) Llama 3.1 70B / 405B бесплатно (загрузка) бесплатно (загрузка) huggingface.co
OpenRouter Llama 4 Scout $0.10 $0.32 цены
DeepInfra Llama 4 Scout $0.08 $0.30 цены
OpenAI gpt-5 $1.25 $10.00 цены
Anthropic claude-sonnet-4.5 $3.00 $15.00 цены

Бенчмарки (официальные; апрель 2025)

Модель MMLU Pro (5-shot) GPQA Diamond (0-shot) HumanEval (pass@1) MATH (0-shot) Источник
Llama 4 Maverick 80.5% 69.8% ~90% ~75% официально
Llama 4 Scout 74.3% 57.2% ~85% ~68% официально
Llama 4 Behemoth (модель-учитель, превью) 82.2% 73.7% ~88% 95.0% (MATH-500) официально
Llama 3.3 70B 68.9% 50.5% 88.4% 77.0% официально
Llama 3.1 405B 73.4% ~50.7% 89.0% ~85% официально
Llama 3.1 70B 66.4% 41.7% 80.5% ~68% официально
GPT-5 не указано 85.7% 93.4% не указано официально
Claude Sonnet 4.5 не указано не указано ~90% не указано официально
DeepSeek V3 (V3-0324) 81.2% 68.4% не указано 94.0% (MATH-500) официально

Последние обновления (февраль 2026)

  • Llama 4 Scout и Maverick активно используются в производстве; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
  • Llama 3.3 70B остаётся де-факто стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; 3.1 70B постепенно выводится из новых развёртываний в пользу 3.3.
  • Llama 4 Behemoth пока не имеет открытых весов и остаётся моделью-учителем; Meta сосредотачивается на практических улучшениях Scout/Maverick и подготовке следующего поколения (Llama 4.X/5).
  • Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Google Vertex AI, IBM watsonx, Oracle Cloud, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
  • Лицензионные ограничения (700M MAU, обязательный брендинг «Built with Llama», запрет прямого использования мультимодальных моделей Llama 4 в ЕС) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
  • Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B) с SDK, совместимыми с API OpenAI; статус остаётся превью, но доступ расширен для большого числа разработчиков.
  • Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (VirtueGuard, Detoxio и др.) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
  • Meta AI (meta.ai и отдельное приложение Meta AI) построены на Llama 4 и расширяют мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс), обеспечивая лучшее понимание контекста и многоязычную поддержку в продуктах Meta.