Факты

Название Llama
Официальный сайт llama.com
Документация llama.com/docs
Чат meta.ai
Страна США
Разработчик Meta* Platforms, Inc. (Meta* Superintelligence Labs)
Доступы

Ссылки

История релизов

  • 2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
  • 2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
  • 2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 70B/405B при меньшей цене и задержке; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH — ссылка
  • 2025-04-05 — релиз Llama 4 Maverick и Scout: изначально мультимодальные, архитектура «смесь экспертов», контекст до 1 млн / 10 млн токенов в открытых весах, сильные показатели на тестах STEM — ссылка
  • 2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
  • 2025-12 — Llama 4.5/4.X объявлена в разработке Meta* Superintelligence Labs; по состоянию на конец марта 2026 года публичного релиза нет, Meta подтверждает работу над Llama 4.X (4.5), 4.1/4.2 и следующими поколениями (включая проект Avocado / «Llama 5»)

Модели (API и открытые веса)

ID (для API / загрузки) Тип / режим Контекст Параметры (активные/всего) Кратко Поддержка / ограничения Цены ($ / 1 млн токенов, Together.ai или указано иное) Документация
Llama 4 Maverick Мультимодальная (смесь экспертов, флагманская) до 1 000 000 17 млрд активных / ~400 млрд всего (128 экспертов) Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.
  • Изначально мультимодальная (вход: текст + изображения, выход: текст)
  • Открытые веса (лицензия Llama 4 Community)
  • Архитектура «смесь экспертов»; эффективные 17 млрд активных параметров
  • Коммерческое использование: для организаций с более чем 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta
  • Доступна через хостинг Meta (Llama API), DeepInfra, Together, Groq, AWS, Azure, Oracle Cloud, Cloudflare Workers AI и др.
  • Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, Facebook, веб и отдельное приложение Meta AI)
  • Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями, зарегистрированными в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС
вход: $0.27; выход: $0.85 (Together.ai) документация
Llama 4 Scout Мультимодальная (смесь экспертов, эффективная, длинный контекст) до 10 000 000 (открытые веса; в типичных API 128K–~328K) 17 млрд активных / 109 млрд всего (16 экспертов) Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); в открытых весах поддерживает контекст до 10 млн токенов, при этом большинство коммерческих хостингов сейчас предлагают окна порядка 128K–328K.
  • Изначально мультимодальная (текст + изображения/документы)
  • Открытые веса (лицензия Llama 4 Community)
  • Оптимизирована для скорости и развёртывания на периферии и в облаке; хорошо масштабируется на H100 в int4/int8
  • Коммерческие ограничения: дополнительная лицензия для организаций с более чем 700 млн активных пользователей в месяц (MAU)
  • Поддержка длинного контекста активно тестируется; на практике большинство фреймворков устойчиво работают на диапазоне до ~300K–1.5 млн токенов, при 10 млн требуются специальные оптимизации и конфигурации с несколькими GPU
  • Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут пользоваться сервисами на базе Llama 4, развёрнутыми за пределами ЕС
вход: $0.18; выход: $0.59 (Together.ai) документация
Llama 4 Behemoth Мультимодальная (смесь экспертов, модель-учитель / сверхкрупная) не указано (внутренняя модель) 288 млрд активных / ~2 трлн всего (16 экспертов) Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на задачах STEM (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на март 2026 года не имеет открытых весов и недоступна для коммерческого использования.
  • Изначально мультимодальная
  • Статус: внутренняя модель и ограниченная исследовательская предварительная версия; нет общедоступного API с открытыми весами
  • Используется для дистилляции и обучения Llama 4 Scout/Maverick
не указано объявление
Meta-Llama-3.3-70B-Instruct Текст (открытые веса, оптимизированная) до 128 000–131 072 (зависит от провайдера) 70 млрд Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.
  • Только текстовая модель (текст на входе / текст на выходе)
  • Открытые веса (лицензия Llama 3 Community)
  • Отличное соотношение цена/качество для текстовых и программных задач; для многих задач по тексту превосходит Llama 3.2 90B Vision
  • Поддерживает локальный и облачный вывод моделей, контекст до ~128K
  • Широко доступна через хостинг Meta, OpenRouter, DeepInfra, Together, Groq, крупные облака и др.
от ~$0.10 вход; от ~$0.32 выход (Meta / OpenRouter; у ряда провайдеров выше, до ~$0.88/$0.88) документация
Meta-Llama-3.1-70B-Instruct Текст (открытые веса) до 128 000 70 млрд Сбалансированная модель 70B семейства 3.1; 66.4% MMLU Pro, ~80.5% HumanEval. Постепенно вытесняется Llama 3.3 70B, но остаётся доступной в виде открытых весов и у ряда провайдеров API как устаревший вариант.
  • Локальный и облачный вывод моделей
  • Модель остаётся доступной и поддерживается в экосистеме как устойчивая база для уже существующих интеграций; новые развёртывания обычно используют Llama 3.3 70B
бесплатно (открытые веса) или через провайдеров API документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса, крупная) до 128 000 405 млрд Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.3% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.
  • Только текст; крупная плотная модель
  • Коммерческое использование — по лицензии Meta Llama 3
  • Доступ через партнёров (например, Oracle, Azure, AWS Bedrock) или для локального развёртывания
  • Требует значительных ресурсов; для экономии обычно используется квантование и распределённый вывод
бесплатно (загрузка весов); платный доступ через ряд провайдеров Llama API и облака документация
Meta-Llama-3.2-90B-Vision-Instruct Текст + изображения (мультимодальная) до 128 000 90 млрд Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.
  • Вход: текст + изображения; выход: текст
  • Фокус: распознавание, визуальное рассуждение, работа с документами и графиками
  • Открытые веса; готова к коммерческому использованию
  • Для новых проектов часто сравнивается с Llama 4 Scout по качеству/стоимости
бесплатно (открытые веса); платный доступ через крупные облака и провайдеров API документация
Meta-Llama-3.2-11B-Vision-Instruct Текст + изображения (лёгкая мультимодальная) до 128 000 11 млрд Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для приложений, где Llama 4 Scout слишком тяжела.
  • Оптимизирована для мобильных и периферийных устройств; хорошо работает в квантованных форматах
  • Открытые веса; поддерживается крупными провайдерами (NVIDIA, облака, шлюзы API)
бесплатно (открытые веса); доступ через API от ~$0.049 за 1 млн токенов у провайдеров Meta документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) до 80 000–128 000 (зависит от хостинга) 3 млрд Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.
  • Поддерживает квантование и работу на устройстве
  • Многоязычность на уровне Llama 3.x
  • Открытые веса; официальные тарифы API Meta начинаются от ~$0.03/$0.05 за 1 млн токенов
~$0.03 вход; ~$0.05 выход (Meta Llama API) документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) до 128 000 1 млрд Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер, при этом официальные карточки указывают контекст до ~128K токенов.
  • Ориентирована на мобильные устройства и микросервисы
  • Лицензия Llama 3 Community; открытые веса
~$0.02 вход; ~$0.02 выход (Meta Llama API) документация
Llama Guard 4 Мультимодальный классификатор безопасности ~160 000 12 млрд Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз весной 2025 года; используется как основная защита в стеке Llama 4 и в Llama Moderations API.
  • Мультимодальная (поддерживает анализ текста и изображений, несколько изображений за запрос)
  • Плотная архитектура, получена путём «обрезки» Llama 4 Scout (удалён роутер и эксперты)
  • Открытые веса, интеграция в Llama Moderations API и многие сторонние стеки безопасности
  • Поддерживает таксономию категорий MLCommons; в независимых тестах блокирует порядка 60–70% наивных атак, при продвинутых целенаправленных обходах ограничений возможен взлом, поэтому рекомендуется многоуровневая защита
бесплатно (открытые веса; коммерческий API — от ~$0.18 за 1 млн токенов у провайдеров) документация

Ключевые особенности

  • Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads, более 1.2 млрд суммарных загрузок к концу 2025 года.
  • Llama 4 — изначально мультимодальная линейка с архитектурой «смесь экспертов» (Scout и Maverick с апреля 2025 года).
  • Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов в открытых весах (практически 128K–~328K в большинстве API), Maverick до 1 млн; Llama 3.x до 128K.
  • Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack).
  • Llama API (публичная предварительная версия) и Llama Stack предоставляют API-слой, совместимый с OpenAI; также существуют широкие интеграции с партнёрскими API (Together, Groq, DeepInfra, Cerebras, Oracle, AWS, Azure, Cloudflare Workers AI и др.).
  • Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (варианты Detoxio, VirtueGuard и др.).
  • Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.).
  • Llama 4.X (условная «Llama 4.5») находится в активной разработке Meta Superintelligence Labs; по состоянию на март 2026 года речь идёт о планах и утечках, а не о публичном релизе.
  • Meta AI чат (meta.ai) и отдельное приложение Meta AI используют Llama 4; расширяются мультимодальные функции (генерация и редактирование изображений, голос), остаётся крупный бесплатный слой и тестируются платные уровни Meta AI+.

Рекомендации по применению

  • Llama 4 Maverick / Scout — универсальные ассистенты, мультимодальные приложения (текст + изображения), программирование, агентные системы, задачи с длинным контекстом (открытая альтернатива закрытым моделям высокого класса, особенно с учётом низкой цены хостинга Meta).
  • Llama 3.3 70B — текстовые задачи, программирование, многоязычные сценарии там, где не нужны изображения и контекст на 10 млн токенов; оптимальное соотношение цена/качество среди крупных текстовых моделей Llama 3.x.
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, работа на устройстве и периферии, когда Llama 4 Scout не помещается в бюджет или по ресурсам.
  • Llama 3.2 (1B/3B) — низкая задержка, мобильные приложения, вычисления на периферии, офлайн-сценарии и локальный вывод на устройстве с контекстом до ~128K токенов.
  • Llama 4 Behemoth (если будет публично выпущена) — конкуренция с GPT-5.x и другими флагманскими моделями в сложных задачах STEM и исследовательских сценариях; на март 2026 года остаётся внутренним ориентиром, а не практическим инструментом.

Ограничения и риски

  • Лицензионные требования: для более 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta*, которое может не быть выдано.
  • Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4.
  • Llama 4 Behemoth — по состоянию на март 2026 года остаётся внутренней/исследовательской моделью без открытых весов и без коммерческого использования.
  • Реальный длинный контекст: несмотря на заявленные 10 млн токенов у Scout, независимые тесты и практические руководства фиксируют деградацию качества и/или ограничение реализаций библиотеками уже при гораздо меньших длинах (десятки–сотни тысяч); для сценариев более 200K токенов требуется тщательное тестирование и специализированные конфигурации.
  • Архитектура «смесь экспертов» упрощает масштабирование по качеству при фиксированном числе активных параметров, но усложняет развёртывание и мониторинг ресурсов (особенно при высоких значениях контекста и на нескольких графических процессорах).
  • Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 и сторонние решения снижают риск, но не устраняют его полностью.
  • Официальное ценообразование Llama API: Meta постепенно выводит платные тарифы с низкой ценой для Llama 3.2/3.3 и Llama 4 (например, Scout от ~$0.08/$0.30, Maverick от ~$0.15/$0.60 за 1 млн токенов), но сама платформа всё ещё помечается как публичная предварительная версия, а условия и лимиты могут меняться.
  • Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах.

Сравнение цен

Чат (подписка)

Meta не предоставляет отдельный массовый платный сервис чата, подобный ChatGPT Plus, в качестве единственного способа доступа: базовый Meta AI (meta.ai и приложение Meta AI) остаются бесплатными для большинства пользователей, в то время как платный уровень Meta AI+ (~$10/месяц) тестируется для повышенных лимитов, более высокой скорости и доступа к премиальным моделям; корпоративные тарифы находятся в пилотном статусе.

API (модели через Together.ai и партнёров)

Провайдер Модель вход, $ / 1 млн выход, $ / 1 млн Ссылка
Meta (открытые веса) Llama 4 Maverick бесплатно (загрузка) бесплатно (загрузка) huggingface.co
Together.ai Llama 4 Maverick $0.27 $0.85 цены
Groq Llama 4 Scout $0.11 $0.34 цены
Together.ai Llama 4 Scout $0.18 $0.59 цены
Meta / OpenRouter (минимум) Llama 3.3 70B $0.10 $0.32 цены
Meta (открытые веса) Llama 3.1 70B / 405B бесплатно (загрузка) бесплатно (загрузка) huggingface.co
OpenRouter Llama 4 Scout $0.08 $0.30 цены
DeepInfra Llama 4 Scout $0.08 $0.30 цены
OpenAI gpt-5 $1.25 $10.00 цены
Anthropic claude-sonnet-4.5 $3.00 $15.00 цены

Бенчмарки (официальные; апрель 2025)

Модель MMLU Pro (5-shot) GPQA Diamond (0-shot) HumanEval (pass@1) MATH (0-shot) Источник
Llama 4 Maverick 80.5% 69.8% ~90% ~75% официально
Llama 4 Scout 74.3% 57.2% ~85% ~68% официально
Llama 4 Behemoth (модель-учитель, превью) 82.2% 73.7% ~88% 95.0% (MATH-500) официально
Llama 3.3 70B 68.9% 50.5% 88.4% 77.0% официально
Llama 3.1 405B 73.3% ~50.7% 89.0% ~73.8–85% официально
Llama 3.1 70B 66.4% 41.7% 80.5% ~68% официально
GPT-5 не указано 85.7% 93.4% не указано официально / аналитика
Claude Sonnet 4.5 не указано не указано ~90%+ не указано официально / обзоры
DeepSeek V3 (V3-0324) 81.2% 68.4% не указано 94.0% (MATH-500) официально

Последние обновления (март 2026)

  • Llama 4 Scout и Maverick активно используются в промышленной эксплуатации; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код, агентные сценарии), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
  • Llama 3.3 70B остаётся фактически стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; Llama 3.1 70B во многих облаках помечена как устаревающая и выводится из новых развёртываний в пользу 3.3.
  • Llama 4 Behemoth по-прежнему не имеет открытых весов и остаётся моделью-учителем; Meta сосредотачивается на практических улучшениях Scout/Maverick и подготовке следующего поколения (Llama 4.X/5).
  • Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Oracle Cloud, экосистема Google через партнёров, IBM watsonx, Cloudflare Workers AI, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
  • Лицензионные ограничения (700 млн активных пользователей в месяц, обязательный брендинг «Built with Llama», региональные ограничения по ЕС для мультимодальных Llama 4) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
  • Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B/70B) с SDK и конечными точками, совместимыми с OpenAI; по-прежнему позиционируется как публичная предварительная версия, но имеет реальные тарифы для многих моделей.
  • Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (например, модели Detoxio) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
  • Meta AI (meta.ai и отдельное приложение Meta AI) построены на Llama 4, расширяют мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс), при этом сохраняется бесплатный базовый доступ и тестируются платные уровни Meta AI+ с повышенными лимитами и премиальными моделями.