Факты

Название Llama
Официальный сайт llama.com
Документация llama.com/docs
Чат / веб-интерфейс meta.ai
Страна США
Разработчик Meta Platforms, Inc. (Meta Superintelligence Labs)
Доступы

Быстрые ссылки

История релизов

  • 2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
  • 2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
  • 2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 70B/405B при меньшей цене и задержке; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH — ссылка
  • 2025-04-05 — релиз Llama 4 Maverick и Scout: изначально мультимодальные, архитектура «Mixture of Experts (MoE)», контекст до 1 млн / 10 млн токенов в открытых весах, сильные показатели на тестах STEM — ссылка
  • 2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
  • 2025-12 — Meta Superintelligence Labs объявляет о работе над семейством Llama 4.X (4.5), а также Llama 4.1/4.2; по состоянию на июнь 2026 года публичных релизов этих моделей с открытыми весами нет, вместо этого в апреле 2026 года выпущен закрытый флагман Muse Spark как преемник Llama 4 внутри продуктов Meta.

Модели (API и открытые веса)

ID (для API / загрузки) Тип / режим Контекст Параметры (активные/всего) Кратко Поддержка / ограничения Цены ($ / 1 млн токенов, Together.ai или указано иное) Документация
Llama 4 Maverick Мультимодальная (Mixture of Experts (MoE), флагманская) до 1 000 000 17 млрд активных / ~400 млрд всего (128 экспертов) Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.
  • Изначально мультимодальная (вход: текст + изображения, выход: текст)
  • Открытые веса (лицензия Llama 4 Community)
  • Архитектура «Mixture of Experts (MoE)»; эффективные 17 млрд активных параметров
  • Коммерческое использование: для организаций с более чем 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta
  • Доступна через хостинг (включая Meta‑совместимые API, OpenRouter, Together, Groq, AWS, Azure, Oracle Cloud, Vertex AI MaaS, Cloudflare Workers AI и др.)
  • Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, Facebook, веб и отдельное приложение Meta AI)
  • Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями и индивидуальными разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС
вход: $0.27; выход: $0.85 (Together.ai) документация
Llama 4 Scout Мультимодальная (Mixture of Experts (MoE), эффективная, длинный контекст) до 10 000 000 (открытые веса; в типичных API 128K–~328K, у части хостеров формально заявлено 10M) 17 млрд активных / 109 млрд всего (16 экспертов) Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); в открытых весах поддерживает контекст до 10 млн токенов, при этом большинство коммерческих хостингов сейчас предлагают окна порядка 128K–328K.
  • Изначально мультимодальная (текст + изображения/документы)
  • Открытые веса (лицензия Llama 4 Community)
  • Оптимизирована для скорости и развёртывания на периферии и в облаке; хорошо масштабируется на H100 в int4/int8
  • Коммерческие ограничения: дополнительная лицензия для организаций с более чем 700 млн активных пользователей в месяц (MAU)
  • Поддержка длинного контекста активно тестируется; на практике большинство фреймворков устойчиво работают на диапазоне до ~300K–1.5 млн токенов, при 10 млн требуются специальные оптимизации и конфигурации с несколькими GPU
  • Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут пользоваться сервисами на базе Llama 4, развёрнутыми за пределами ЕС
вход: $0.18; выход: $0.59 (Together.ai) документация
Llama 4 Behemoth Мультимодальная (Mixture of Experts (MoE), модель-учитель / сверхкрупная) не указано (внутренняя модель) 288 млрд активных / ~2 трлн всего (16 экспертов) Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на задачах STEM (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на июнь 2026 года не имеет открытых весов и недоступна для коммерческого использования.
  • Изначально мультимодальная
  • Статус: внутренняя модель и ограниченная исследовательская предварительная версия; нет общедоступного API с открытыми весами
  • Используется для дистилляции и обучения Llama 4 Scout/Maverick и послужила одной из опор для перехода к Muse Spark
не указано объявление
Meta-Llama-3.3-70B-Instruct Текст (открытые веса, оптимизированная) до 128 000–131 072 (зависит от провайдера) 70 млрд Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.
  • Только текстовая модель (текст на входе / текст на выходе)
  • Открытые веса (лицензия Llama 3 Community)
  • Отличное соотношение цена/качество для текстовых и программных задач; для многих задач по тексту превосходит Llama 3.2 90B Vision
  • Поддерживает локальный и облачный вывод моделей, контекст до ~128K
  • Широко доступна через хостинг (OpenRouter, DeepInfra, Together, Groq, крупные облака и др.)
от ~$0.10 вход; от ~$0.32 выход (Meta‑совместимые API / OpenRouter; у ряда провайдеров выше, до ~$0.88/$0.88) документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса, крупная) до 128 000 405 млрд Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.3% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth и Muse Spark рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.
  • Только текст; крупная плотная модель
  • Коммерческое использование — по лицензии Meta Llama 3
  • Доступ через партнёров (например, Oracle, Azure, AWS Bedrock) или для локального развёртывания
  • Требует значительных ресурсов; для экономии обычно используется квантование и распределённый вывод
бесплатно (загрузка весов); платный доступ через ряд провайдеров Llama‑совместимого API и облака документация
Meta-Llama-3.2-90B-Vision-Instruct Текст + изображения (мультимодальная) до 128 000 90 млрд Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.
  • Вход: текст + изображения; выход: текст
  • Фокус: распознавание, визуальное рассуждение, работа с документами и графиками
  • Открытые веса; готова к коммерческому использованию
  • Для новых проектов часто сравнивается с Llama 4 Scout по качеству/стоимости
бесплатно (открытые веса); платный доступ через крупные облака и провайдеров API документация
Meta-Llama-3.2-11B-Vision-Instruct Текст + изображения (лёгкая мультимодальная) до 128 000 11 млрд Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для приложений, где Llama 4 Scout слишком тяжела.
  • Оптимизирована для мобильных и периферийных устройств; хорошо работает в квантованных форматах
  • Открытые веса; поддерживается крупными провайдерами (NVIDIA, облака, шлюзы API)
бесплатно (открытые веса); доступ через API от ~$0.049 за 1 млн токенов у ряда провайдеров документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) до 80 000–128 000 (зависит от хостинга) 3 млрд Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.
  • Поддерживает квантование и работу на устройстве
  • Многоязычность на уровне Llama 3.x
  • У части хостинг‑провайдеров цены начинаются примерно от $0.03/$0.05 за 1 млн токенов
~$0.03 вход; ~$0.05 выход (типичные тарифы Llama‑совместимых API) документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) до 128 000 1 млрд Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер, при этом официальные карточки указывают контекст до ~128K токенов.
  • Ориентирована на мобильные устройства и микросервисы
  • Лицензия Llama 3 Community; открытые веса
~$0.02 вход; ~$0.02 выход (типичные тарифы Requesty/OpenRouter и др.) документация
Llama Guard 4 Мультимодальный классификатор безопасности ~160 000 12 млрд Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз весной 2025 года; используется как основная защита в стеке Llama 4 и в Llama Moderations API.
  • Мультимодальная (поддерживает анализ текста и изображений, несколько изображений за запрос)
  • Плотная архитектура, получена путём «обрезки» Llama 4 Scout (удалён роутер и эксперты)
  • Открытые веса, интеграция в Llama Moderations API и многие сторонние стеки безопасности
  • Поддерживает таксономию категорий MLCommons; в независимых тестах блокирует значимую долю наивных атак, при продвинутых целенаправленных обходах ограничений возможен взлом, поэтому рекомендуется многоуровневая защита
бесплатно (открытые веса; коммерческий API — от ~$0.18 за 1 млн токенов у провайдеров) документация

Ключевые особенности

  • Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads, более 1.2 млрд суммарных загрузок к концу 2025 года.
  • Llama 4 — изначально мультимодальная линейка с архитектурой «Mixture of Experts (MoE)» (Scout и Maverick с апреля 2025 года).
  • Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов в открытых весах (практически 128K–~328K в большинстве API), Maverick до 1 млн; Llama 3.x до 128K.
  • Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack).
  • Llama API и Llama Stack предоставляют API-слой, совместимый с OpenAI; также существуют широкие интеграции с партнёрскими API (Together, Groq, DeepInfra, Cerebras, Oracle, AWS, Azure, Google Vertex AI, Cloudflare Workers AI и др.).
  • Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (варианты Detoxio, VirtueGuard и др.).
  • Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.).
  • После прохладного приёма первых версий Llama 4 Meta создала Meta Superintelligence Labs и в апреле 2026 года выпустила закрытую мультимодальную reasoning‑модель Muse Spark как флагман для продуктов Meta; при этом Llama 4 и Llama 3.3 остаются открытой основой для экосистемы разработчиков.
  • Meta AI чат (meta.ai) и отдельное приложение Meta AI используют связку Llama 4 и Muse Spark; расширяются мультимодальные функции (генерация и редактирование изображений, голос), остаётся крупный бесплатный слой и тестируются платные уровни Meta One (Meta One Plus / Premium).

Рекомендации по применению

  • Llama 4 Maverick / Scout — универсальные ассистенты, мультимодальные приложения (текст + изображения), программирование, агентные системы, задачи с длинным контекстом (открытая альтернатива закрытым моделям высокого класса, особенно с учётом низкой цены хостинга у ряда провайдеров и Meta‑совместимых API).
  • Llama 3.3 70B — текстовые задачи, программирование, многоязычные сценарии там, где не нужны изображения и контекст на 10 млн токенов; оптимальное соотношение цена/качество среди крупных текстовых моделей Llama 3.x.
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, работа на устройстве и периферии, когда Llama 4 Scout не помещается в бюджет или по ресурсам.
  • Llama 3.2 (1B/3B) — низкая задержка, мобильные приложения, вычисления на периферии, офлайн-сценарии и локальный вывод на устройстве с контекстом до ~128K токенов.

Ограничения и риски

  • Лицензионные требования: для более 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta, которое может не быть выдано.
  • Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4.
  • Llama 4 Behemoth — по состоянию на июнь 2026 года остаётся внутренней/исследовательской моделью без открытых весов и без коммерческого использования; дальнейшая её судьба во многом связана с развитием закрытой линейки Muse.
  • Реальный длинный контекст: несмотря на заявленные 10 млн токенов у Scout, независимые тесты и практические руководства фиксируют деградацию качества и/или ограничение реализаций библиотеками уже при гораздо меньших длинах (десятки–сотни тысяч); для сценариев более 200K токенов требуется тщательное тестирование и специализированные конфигурации.
  • Архитектура «Mixture of Experts (MoE)» упрощает масштабирование по качеству при фиксированном числе активных параметров, но усложняет развёртывание и мониторинг ресурсов (особенно при высоких значениях контекста и на нескольких графических процессорах).
  • Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 и сторонние решения снижают риск, но не устраняют его полностью.
  • Ценообразование Llama‑совместимых API: Meta и партнёры предлагают низкие цены для Llama 3.2/3.3 и Llama 4 (например, Scout от ~$0.08/$0.30, Maverick от ~$0.15/$0.60 за 1 млн токенов в Meta‑совместимых API и у хостеров), но платформа и экосистема всё ещё активно развиваются, условия и лимиты могут меняться.
  • Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах.

Сравнение цен

Чат (подписка)

Meta не делает платную подписку единственным способом доступа к Meta AI: базовый Meta AI (meta.ai и приложение Meta AI) остаются бесплатными для большинства пользователей, в то время как платные уровни Meta One Plus ($7.99/месяц) и Meta One Premium ($19.99/месяц) тестируются как надстройка с повышенными лимитами, более высокой скоростью и доступом к премиальным моделям; корпоративные тарифы находятся в пилотном статусе.

API (модели через Together.ai и партнёров)

Провайдер Модель вход, $ / 1 млн выход, $ / 1 млн Ссылка
Meta (открытые веса) Llama 4 Maverick бесплатно (загрузка) бесплатно (загрузка) huggingface.co
Together.ai Llama 4 Maverick $0.27 $0.85 цены
Groq Llama 4 Scout $0.11 $0.34 цены
Together.ai Llama 4 Scout $0.18 $0.59 цены
Meta‑совместимые API (минимум) Llama 3.3 70B $0.10 $0.32 цены
Meta (открытые веса) Llama 3.1 405B бесплатно (загрузка) бесплатно (загрузка) huggingface.co
OpenRouter Llama 4 Scout $0.08 $0.30 цены
DeepInfra Llama 4 Scout $0.08 $0.30 цены
OpenAI gpt-5 $1.25 $10.00 цены
Anthropic claude-sonnet-4.5 $3.00 $15.00 цены

Бенчмарки (официальные; апрель 2025)

Модель MMLU Pro (5-shot) GPQA Diamond (0-shot) HumanEval (pass@1) MATH (0-shot) Источник
Llama 4 Maverick 80.5% 69.8% ~90% ~75% официально
Llama 4 Scout 74.3% 57.2% ~85% ~68% официально
Llama 4 Behemoth (модель-учитель, превью) 82.2% 73.7% ~88% 95.0% (MATH-500) официально
Llama 3.3 70B 68.9% 50.5% 88.4% 77.0% официально
Llama 3.1 405B 73.3% ~50.7% 89.0% ~73.8–85% официально
Llama 3.1 70B 66.4% 41.7% 80.5% ~68% официально
DeepSeek V3 (V3-0324) 81.2% 68.4% не указано 94.0% (MATH-500) официально

Последние обновления (июнь 2026)

  • Llama 4 Scout и Maverick активно используются в промышленной эксплуатации; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код, агентные сценарии), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
  • Llama 3.3 70B остаётся фактически стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; Llama 3.1 70B во многих облаках помечена как устаревающая и выводится из новых развёртываний в пользу 3.3 (используется в основном для легаси‑нагрузок).
  • Llama 4 Behemoth по-прежнему не имеет открытых весов и остаётся моделью-учителем; на фоне запуска Muse Spark вероятность её полноценного открытого релиза снизилась, Meta сосредотачивается на практических улучшениях Scout/Maverick и новой закрытой линейке Muse.
  • Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Oracle Cloud, Google Vertex AI в режиме MaaS, IBM watsonx, Cloudflare Workers AI, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
  • Лицензионные ограничения (700 млн активных пользователей в месяц, обязательный брендинг «Built with Llama», региональные ограничения по ЕС для мультимодальных Llama 4) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
  • Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B/70B) с SDK и конечными точками, совместимыми с OpenAI; фактически используется в реальных продуктах, хотя формально ещё воспринимается как активно развивающийся сервис.
  • Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (например, модели Detoxio) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
  • Meta AI (meta.ai и отдельное приложение Meta AI) теперь используют не только Llama 4, но и закрытую reasoning‑модель Muse Spark, расширяя мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс, более глубокое рассуждение), при этом сохраняется бесплатный базовый доступ и тестируются платные уровни Meta One с повышенными лимитами и премиальными моделями.