LLaMA

Llama — семейство открытых моделей, которые разрабатывает, распространяет веса и документацию Meta, через официальный портал Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API, Llama Stack). Линейка включает текстовые и мультимодальные варианты, ориентированные на локальный, периферийный и облачный вывод моделей.

Llama 4 — изначально мультимодальные модели с архитектурой «Mixture of Experts (MoE)» и поддержкой контекста до 10 млн токенов (Scout) и 1 млн токенов (Maverick); Llama 3.3 70B по качеству приближается к флагману Llama 3.1 405B при существенно меньшей цене и задержке и остаётся основной крупной текстовой моделью семейства 3.x.

Обновлено 4 июня 2026 года.

Факты

Название	Llama
Официальный сайт	llama.com
Документация	llama.com/docs
Чат / веб-интерфейс	meta.ai
Страна	США
Разработчик	Meta Platforms, Inc. (Meta Superintelligence Labs)
Доступы	Веса/модели: Hugging Face и страница загрузок Llama API (API-сервис, совместимый с OpenAI): страница Llama Stack: документация Meta AI чат: meta.ai

Быстрые ссылки

История релизов

2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 70B/405B при меньшей цене и задержке; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH — ссылка
2025-04-05 — релиз Llama 4 Maverick и Scout: изначально мультимодальные, архитектура «Mixture of Experts (MoE)», контекст до 1 млн / 10 млн токенов в открытых весах, сильные показатели на тестах STEM — ссылка
2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
2025-12 — Meta Superintelligence Labs объявляет о работе над семейством Llama 4.X (4.5), а также Llama 4.1/4.2; по состоянию на июнь 2026 года публичных релизов этих моделей с открытыми весами нет, вместо этого в апреле 2026 года выпущен закрытый флагман Muse Spark как преемник Llama 4 внутри продуктов Meta.

Модели (API и открытые веса)

ID (для API / загрузки)	Тип / режим	Контекст	Параметры (активные/всего)	Кратко	Поддержка / ограничения	Цены ($ / 1 млн токенов, Together.ai или указано иное)	Документация
Llama 4 Maverick	Мультимодальная (Mixture of Experts (MoE), флагманская)	до 1 000 000	17 млрд активных / ~400 млрд всего (128 экспертов)	Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.	Изначально мультимодальная (вход: текст + изображения, выход: текст) Открытые веса (лицензия Llama 4 Community) Архитектура «Mixture of Experts (MoE)»; эффективные 17 млрд активных параметров Коммерческое использование: для организаций с более чем 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta Доступна через хостинг (включая Meta‑совместимые API, OpenRouter, Together, Groq, AWS, Azure, Oracle Cloud, Vertex AI MaaS, Cloudflare Workers AI и др.) Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, Facebook, веб и отдельное приложение Meta AI) Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями и индивидуальными разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС	вход: $0.27; выход: $0.85 (Together.ai)	документация
Llama 4 Scout	Мультимодальная (Mixture of Experts (MoE), эффективная, длинный контекст)	до 10 000 000 (открытые веса; в типичных API 128K–~328K, у части хостеров формально заявлено 10M)	17 млрд активных / 109 млрд всего (16 экспертов)	Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); в открытых весах поддерживает контекст до 10 млн токенов, при этом большинство коммерческих хостингов сейчас предлагают окна порядка 128K–328K.	Изначально мультимодальная (текст + изображения/документы) Открытые веса (лицензия Llama 4 Community) Оптимизирована для скорости и развёртывания на периферии и в облаке; хорошо масштабируется на H100 в int4/int8 Коммерческие ограничения: дополнительная лицензия для организаций с более чем 700 млн активных пользователей в месяц (MAU) Поддержка длинного контекста активно тестируется; на практике большинство фреймворков устойчиво работают на диапазоне до ~300K–1.5 млн токенов, при 10 млн требуются специальные оптимизации и конфигурации с несколькими GPU Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут пользоваться сервисами на базе Llama 4, развёрнутыми за пределами ЕС	вход: $0.18; выход: $0.59 (Together.ai)	документация
Llama 4 Behemoth	Мультимодальная (Mixture of Experts (MoE), модель-учитель / сверхкрупная)	не указано (внутренняя модель)	288 млрд активных / ~2 трлн всего (16 экспертов)	Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на задачах STEM (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на июнь 2026 года не имеет открытых весов и недоступна для коммерческого использования.	Изначально мультимодальная Статус: внутренняя модель и ограниченная исследовательская предварительная версия; нет общедоступного API с открытыми весами Используется для дистилляции и обучения Llama 4 Scout/Maverick и послужила одной из опор для перехода к Muse Spark	не указано	объявление
Meta-Llama-3.3-70B-Instruct	Текст (открытые веса, оптимизированная)	до 128 000–131 072 (зависит от провайдера)	70 млрд	Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.	Только текстовая модель (текст на входе / текст на выходе) Открытые веса (лицензия Llama 3 Community) Отличное соотношение цена/качество для текстовых и программных задач; для многих задач по тексту превосходит Llama 3.2 90B Vision Поддерживает локальный и облачный вывод моделей, контекст до ~128K Широко доступна через хостинг (OpenRouter, DeepInfra, Together, Groq, крупные облака и др.)	от ~$0.10 вход; от ~$0.32 выход (Meta‑совместимые API / OpenRouter; у ряда провайдеров выше, до ~$0.88/$0.88)	документация
Meta-Llama-3.1-405B-Instruct	Текст (открытые веса, крупная)	до 128 000	405 млрд	Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.3% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth и Muse Spark рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.	Только текст; крупная плотная модель Коммерческое использование — по лицензии Meta Llama 3 Доступ через партнёров (например, Oracle, Azure, AWS Bedrock) или для локального развёртывания Требует значительных ресурсов; для экономии обычно используется квантование и распределённый вывод	бесплатно (загрузка весов); платный доступ через ряд провайдеров Llama‑совместимого API и облака	документация
Meta-Llama-3.2-90B-Vision-Instruct	Текст + изображения (мультимодальная)	до 128 000	90 млрд	Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.	Вход: текст + изображения; выход: текст Фокус: распознавание, визуальное рассуждение, работа с документами и графиками Открытые веса; готова к коммерческому использованию Для новых проектов часто сравнивается с Llama 4 Scout по качеству/стоимости	бесплатно (открытые веса); платный доступ через крупные облака и провайдеров API	документация
Meta-Llama-3.2-11B-Vision-Instruct	Текст + изображения (лёгкая мультимодальная)	до 128 000	11 млрд	Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для приложений, где Llama 4 Scout слишком тяжела.	Оптимизирована для мобильных и периферийных устройств; хорошо работает в квантованных форматах Открытые веса; поддерживается крупными провайдерами (NVIDIA, облака, шлюзы API)	бесплатно (открытые веса); доступ через API от ~$0.049 за 1 млн токенов у ряда провайдеров	документация
Meta-Llama-3.2-3B-Instruct	Текст (лёгкая)	до 80 000–128 000 (зависит от хостинга)	3 млрд	Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.	Поддерживает квантование и работу на устройстве Многоязычность на уровне Llama 3.x У части хостинг‑провайдеров цены начинаются примерно от $0.03/$0.05 за 1 млн токенов	~$0.03 вход; ~$0.05 выход (типичные тарифы Llama‑совместимых API)	документация
Meta-Llama-3.2-1B-Instruct	Текст (ультралёгкая)	до 128 000	1 млрд	Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер, при этом официальные карточки указывают контекст до ~128K токенов.	Ориентирована на мобильные устройства и микросервисы Лицензия Llama 3 Community; открытые веса	~$0.02 вход; ~$0.02 выход (типичные тарифы Requesty/OpenRouter и др.)	документация
Llama Guard 4	Мультимодальный классификатор безопасности	~160 000	12 млрд	Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз весной 2025 года; используется как основная защита в стеке Llama 4 и в Llama Moderations API.	Мультимодальная (поддерживает анализ текста и изображений, несколько изображений за запрос) Плотная архитектура, получена путём «обрезки» Llama 4 Scout (удалён роутер и эксперты) Открытые веса, интеграция в Llama Moderations API и многие сторонние стеки безопасности Поддерживает таксономию категорий MLCommons; в независимых тестах блокирует значимую долю наивных атак, при продвинутых целенаправленных обходах ограничений возможен взлом, поэтому рекомендуется многоуровневая защита	бесплатно (открытые веса; коммерческий API — от ~$0.18 за 1 млн токенов у провайдеров)	документация

Ключевые особенности

Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads, более 1.2 млрд суммарных загрузок к концу 2025 года.
Llama 4 — изначально мультимодальная линейка с архитектурой «Mixture of Experts (MoE)» (Scout и Maverick с апреля 2025 года).
Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов в открытых весах (практически 128K–~328K в большинстве API), Maverick до 1 млн; Llama 3.x до 128K.
Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack).
Llama API и Llama Stack предоставляют API-слой, совместимый с OpenAI; также существуют широкие интеграции с партнёрскими API (Together, Groq, DeepInfra, Cerebras, Oracle, AWS, Azure, Google Vertex AI, Cloudflare Workers AI и др.).
Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (варианты Detoxio, VirtueGuard и др.).
Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.).
После прохладного приёма первых версий Llama 4 Meta создала Meta Superintelligence Labs и в апреле 2026 года выпустила закрытую мультимодальную reasoning‑модель Muse Spark как флагман для продуктов Meta; при этом Llama 4 и Llama 3.3 остаются открытой основой для экосистемы разработчиков.
Meta AI чат (meta.ai) и отдельное приложение Meta AI используют связку Llama 4 и Muse Spark; расширяются мультимодальные функции (генерация и редактирование изображений, голос), остаётся крупный бесплатный слой и тестируются платные уровни Meta One (Meta One Plus / Premium).

Ограничения и риски

Лицензионные требования: для более 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta, которое может не быть выдано.
Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4.
Llama 4 Behemoth — по состоянию на июнь 2026 года остаётся внутренней/исследовательской моделью без открытых весов и без коммерческого использования; дальнейшая её судьба во многом связана с развитием закрытой линейки Muse.
Реальный длинный контекст: несмотря на заявленные 10 млн токенов у Scout, независимые тесты и практические руководства фиксируют деградацию качества и/или ограничение реализаций библиотеками уже при гораздо меньших длинах (десятки–сотни тысяч); для сценариев более 200K токенов требуется тщательное тестирование и специализированные конфигурации.
Архитектура «Mixture of Experts (MoE)» упрощает масштабирование по качеству при фиксированном числе активных параметров, но усложняет развёртывание и мониторинг ресурсов (особенно при высоких значениях контекста и на нескольких графических процессорах).
Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 и сторонние решения снижают риск, но не устраняют его полностью.
Ценообразование Llama‑совместимых API: Meta и партнёры предлагают низкие цены для Llama 3.2/3.3 и Llama 4 (например, Scout от ~$0.08/$0.30, Maverick от ~$0.15/$0.60 за 1 млн токенов в Meta‑совместимых API и у хостеров), но платформа и экосистема всё ещё активно развиваются, условия и лимиты могут меняться.
Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах.

Сравнение цен

Чат (подписка)

Meta не делает платную подписку единственным способом доступа к Meta AI: базовый Meta AI (meta.ai и приложение Meta AI) остаются бесплатными для большинства пользователей, в то время как платные уровни Meta One Plus ($7.99/месяц) и Meta One Premium ($19.99/месяц) тестируются как надстройка с повышенными лимитами, более высокой скоростью и доступом к премиальным моделям; корпоративные тарифы находятся в пилотном статусе.

API (модели через Together.ai и партнёров)

Провайдер	Модель	вход, $ / 1 млн	выход, $ / 1 млн	Ссылка
Meta (открытые веса)	Llama 4 Maverick	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
Together.ai	Llama 4 Maverick	$0.27	$0.85	цены
Groq	Llama 4 Scout	$0.11	$0.34	цены
Together.ai	Llama 4 Scout	$0.18	$0.59	цены
Meta‑совместимые API (минимум)	Llama 3.3 70B	$0.10	$0.32	цены
Meta (открытые веса)	Llama 3.1 405B	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
OpenRouter	Llama 4 Scout	$0.08	$0.30	цены
DeepInfra	Llama 4 Scout	$0.08	$0.30	цены
OpenAI	gpt-5	$1.25	$10.00	цены
Anthropic	claude-sonnet-4.5	$3.00	$15.00	цены

Бенчмарки (официальные; апрель 2025)

Модель	MMLU Pro (5-shot)	GPQA Diamond (0-shot)	HumanEval (pass@1)	MATH (0-shot)	Источник
Llama 4 Maverick	80.5%	69.8%	~90%	~75%	официально
Llama 4 Scout	74.3%	57.2%	~85%	~68%	официально
Llama 4 Behemoth (модель-учитель, превью)	82.2%	73.7%	~88%	95.0% (MATH-500)	официально
Llama 3.3 70B	68.9%	50.5%	88.4%	77.0%	официально
Llama 3.1 405B	73.3%	~50.7%	89.0%	~73.8–85%	официально
Llama 3.1 70B	66.4%	41.7%	80.5%	~68%	официально
DeepSeek V3 (V3-0324)	81.2%	68.4%	не указано	94.0% (MATH-500)	официально

Последние обновления (июнь 2026)

Llama 4 Scout и Maverick активно используются в промышленной эксплуатации; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код, агентные сценарии), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
Llama 3.3 70B остаётся фактически стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; Llama 3.1 70B во многих облаках помечена как устаревающая и выводится из новых развёртываний в пользу 3.3 (используется в основном для легаси‑нагрузок).
Llama 4 Behemoth по-прежнему не имеет открытых весов и остаётся моделью-учителем; на фоне запуска Muse Spark вероятность её полноценного открытого релиза снизилась, Meta сосредотачивается на практических улучшениях Scout/Maverick и новой закрытой линейке Muse.
Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Oracle Cloud, Google Vertex AI в режиме MaaS, IBM watsonx, Cloudflare Workers AI, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
Лицензионные ограничения (700 млн активных пользователей в месяц, обязательный брендинг «Built with Llama», региональные ограничения по ЕС для мультимодальных Llama 4) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B/70B) с SDK и конечными точками, совместимыми с OpenAI; фактически используется в реальных продуктах, хотя формально ещё воспринимается как активно развивающийся сервис.
Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (например, модели Detoxio) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
Meta AI (meta.ai и отдельное приложение Meta AI) теперь используют не только Llama 4, но и закрытую reasoning‑модель Muse Spark, расширяя мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс, более глубокое рассуждение), при этом сохраняется бесплатный базовый доступ и тестируются платные уровни Meta One с повышенными лимитами и премиальными моделями.

*Meta — признана в России экстремистской организацией, её деятельность запрещена.

Новости

LLaMA

Факты

Быстрые ссылки

История релизов

Модели (API и открытые веса)

Ключевые особенности

Рекомендации по применению

Ограничения и риски

Сравнение цен

Чат (подписка)

API (модели через Together.ai и партнёров)

Бенчмарки (официальные; апрель 2025)

Последние обновления (июнь 2026)

Новости

Meta планирует выпустить новую версию Llama 4 до конца 2025 года

Военные академии США превратят в лаборатории искусственного интеллекта

Cloudflare запускает защиту от вредоносных промптов для языковых моделей

LLM-судьи оказались ненадежными оценщиками качества ответов

Французы предпочитают учиться с ИИ, а не автоматизировать задачи

DeepSpeed ZenFlow устраняет простои GPU при обучении больших языковых моделей