LLaMA

Llama — семейство открытых моделей, которые разрабатывает, распространяет веса и документацию Meta*, через официальный портал Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API, Llama Stack). Линейка включает текстовые и мультимодальные варианты, ориентированные на локальный, периферийный и облачный вывод моделей.

Llama 4 — изначально мультимодальные модели с архитектурой «смесь экспертов» и поддержкой контекста до 10 млн токенов и 1 млн; Llama 3.3 70B по качеству приближается к флагману Llama 3.1 405B при существенно меньшей цене и задержке.

Обновлено 26 марта 2026 года.

Факты

Название	Llama
Официальный сайт	llama.com
Документация	llama.com/docs
Чат	meta.ai
Страна	США
Разработчик	Meta* Platforms, Inc. (Meta* Superintelligence Labs)
Доступы	Веса/модели: Hugging Face и страница загрузок Llama API (публичная предварительная версия, совместимый с OpenAI): страница Llama Stack: документация Meta* AI чат: meta.ai

Ссылки

История релизов

2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 70B/405B при меньшей цене и задержке; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH — ссылка
2025-04-05 — релиз Llama 4 Maverick и Scout: изначально мультимодальные, архитектура «смесь экспертов», контекст до 1 млн / 10 млн токенов в открытых весах, сильные показатели на тестах STEM — ссылка
2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
2025-12 — Llama 4.5/4.X объявлена в разработке Meta* Superintelligence Labs; по состоянию на конец марта 2026 года публичного релиза нет, Meta подтверждает работу над Llama 4.X (4.5), 4.1/4.2 и следующими поколениями (включая проект Avocado / «Llama 5»)

Модели (API и открытые веса)

ID (для API / загрузки)	Тип / режим	Контекст	Параметры (активные/всего)	Кратко	Поддержка / ограничения	Цены ($ / 1 млн токенов, Together.ai или указано иное)	Документация
Llama 4 Maverick	Мультимодальная (смесь экспертов, флагманская)	до 1 000 000	17 млрд активных / ~400 млрд всего (128 экспертов)	Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.	Изначально мультимодальная (вход: текст + изображения, выход: текст) Открытые веса (лицензия Llama 4 Community) Архитектура «смесь экспертов»; эффективные 17 млрд активных параметров Коммерческое использование: для организаций с более чем 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta Доступна через хостинг Meta (Llama API), DeepInfra, Together, Groq, AWS, Azure, Oracle Cloud, Cloudflare Workers AI и др. Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, Facebook, веб и отдельное приложение Meta AI) Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями, зарегистрированными в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС	вход: $0.27; выход: $0.85 (Together.ai)	документация
Llama 4 Scout	Мультимодальная (смесь экспертов, эффективная, длинный контекст)	до 10 000 000 (открытые веса; в типичных API 128K–~328K)	17 млрд активных / 109 млрд всего (16 экспертов)	Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); в открытых весах поддерживает контекст до 10 млн токенов, при этом большинство коммерческих хостингов сейчас предлагают окна порядка 128K–328K.	Изначально мультимодальная (текст + изображения/документы) Открытые веса (лицензия Llama 4 Community) Оптимизирована для скорости и развёртывания на периферии и в облаке; хорошо масштабируется на H100 в int4/int8 Коммерческие ограничения: дополнительная лицензия для организаций с более чем 700 млн активных пользователей в месяц (MAU) Поддержка длинного контекста активно тестируется; на практике большинство фреймворков устойчиво работают на диапазоне до ~300K–1.5 млн токенов, при 10 млн требуются специальные оптимизации и конфигурации с несколькими GPU Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчиками, зарегистрированными в ЕС; конечные пользователи в ЕС могут пользоваться сервисами на базе Llama 4, развёрнутыми за пределами ЕС	вход: $0.18; выход: $0.59 (Together.ai)	документация
Llama 4 Behemoth	Мультимодальная (смесь экспертов, модель-учитель / сверхкрупная)	не указано (внутренняя модель)	288 млрд активных / ~2 трлн всего (16 экспертов)	Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на задачах STEM (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на март 2026 года не имеет открытых весов и недоступна для коммерческого использования.	Изначально мультимодальная Статус: внутренняя модель и ограниченная исследовательская предварительная версия; нет общедоступного API с открытыми весами Используется для дистилляции и обучения Llama 4 Scout/Maverick	не указано	объявление
Meta-Llama-3.3-70B-Instruct	Текст (открытые веса, оптимизированная)	до 128 000–131 072 (зависит от провайдера)	70 млрд	Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 68.9% MMLU Pro, 88.4% HumanEval, 77.0% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.	Только текстовая модель (текст на входе / текст на выходе) Открытые веса (лицензия Llama 3 Community) Отличное соотношение цена/качество для текстовых и программных задач; для многих задач по тексту превосходит Llama 3.2 90B Vision Поддерживает локальный и облачный вывод моделей, контекст до ~128K Широко доступна через хостинг Meta, OpenRouter, DeepInfra, Together, Groq, крупные облака и др.	от ~$0.10 вход; от ~$0.32 выход (Meta / OpenRouter; у ряда провайдеров выше, до ~$0.88/$0.88)	документация
Meta-Llama-3.1-70B-Instruct	Текст (открытые веса)	до 128 000	70 млрд	Сбалансированная модель 70B семейства 3.1; 66.4% MMLU Pro, ~80.5% HumanEval. Постепенно вытесняется Llama 3.3 70B, но остаётся доступной в виде открытых весов и у ряда провайдеров API как устаревший вариант.	Локальный и облачный вывод моделей Модель остаётся доступной и поддерживается в экосистеме как устойчивая база для уже существующих интеграций; новые развёртывания обычно используют Llama 3.3 70B	бесплатно (открытые веса) или через провайдеров API	документация
Meta-Llama-3.1-405B-Instruct	Текст (открытые веса, крупная)	до 128 000	405 млрд	Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.3% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.	Только текст; крупная плотная модель Коммерческое использование — по лицензии Meta Llama 3 Доступ через партнёров (например, Oracle, Azure, AWS Bedrock) или для локального развёртывания Требует значительных ресурсов; для экономии обычно используется квантование и распределённый вывод	бесплатно (загрузка весов); платный доступ через ряд провайдеров Llama API и облака	документация
Meta-Llama-3.2-90B-Vision-Instruct	Текст + изображения (мультимодальная)	до 128 000	90 млрд	Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.	Вход: текст + изображения; выход: текст Фокус: распознавание, визуальное рассуждение, работа с документами и графиками Открытые веса; готова к коммерческому использованию Для новых проектов часто сравнивается с Llama 4 Scout по качеству/стоимости	бесплатно (открытые веса); платный доступ через крупные облака и провайдеров API	документация
Meta-Llama-3.2-11B-Vision-Instruct	Текст + изображения (лёгкая мультимодальная)	до 128 000	11 млрд	Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для приложений, где Llama 4 Scout слишком тяжела.	Оптимизирована для мобильных и периферийных устройств; хорошо работает в квантованных форматах Открытые веса; поддерживается крупными провайдерами (NVIDIA, облака, шлюзы API)	бесплатно (открытые веса); доступ через API от ~$0.049 за 1 млн токенов у провайдеров Meta	документация
Meta-Llama-3.2-3B-Instruct	Текст (лёгкая)	до 80 000–128 000 (зависит от хостинга)	3 млрд	Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.	Поддерживает квантование и работу на устройстве Многоязычность на уровне Llama 3.x Открытые веса; официальные тарифы API Meta начинаются от ~$0.03/$0.05 за 1 млн токенов	~$0.03 вход; ~$0.05 выход (Meta Llama API)	документация
Meta-Llama-3.2-1B-Instruct	Текст (ультралёгкая)	до 128 000	1 млрд	Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер, при этом официальные карточки указывают контекст до ~128K токенов.	Ориентирована на мобильные устройства и микросервисы Лицензия Llama 3 Community; открытые веса	~$0.02 вход; ~$0.02 выход (Meta Llama API)	документация
Llama Guard 4	Мультимодальный классификатор безопасности	~160 000	12 млрд	Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз весной 2025 года; используется как основная защита в стеке Llama 4 и в Llama Moderations API.	Мультимодальная (поддерживает анализ текста и изображений, несколько изображений за запрос) Плотная архитектура, получена путём «обрезки» Llama 4 Scout (удалён роутер и эксперты) Открытые веса, интеграция в Llama Moderations API и многие сторонние стеки безопасности Поддерживает таксономию категорий MLCommons; в независимых тестах блокирует порядка 60–70% наивных атак, при продвинутых целенаправленных обходах ограничений возможен взлом, поэтому рекомендуется многоуровневая защита	бесплатно (открытые веса; коммерческий API — от ~$0.18 за 1 млн токенов у провайдеров)	документация

Ключевые особенности

Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads, более 1.2 млрд суммарных загрузок к концу 2025 года.
Llama 4 — изначально мультимодальная линейка с архитектурой «смесь экспертов» (Scout и Maverick с апреля 2025 года).
Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов в открытых весах (практически 128K–~328K в большинстве API), Maverick до 1 млн; Llama 3.x до 128K.
Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack).
Llama API (публичная предварительная версия) и Llama Stack предоставляют API-слой, совместимый с OpenAI; также существуют широкие интеграции с партнёрскими API (Together, Groq, DeepInfra, Cerebras, Oracle, AWS, Azure, Cloudflare Workers AI и др.).
Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (варианты Detoxio, VirtueGuard и др.).
Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.).
Llama 4.X (условная «Llama 4.5») находится в активной разработке Meta Superintelligence Labs; по состоянию на март 2026 года речь идёт о планах и утечках, а не о публичном релизе.
Meta AI чат (meta.ai) и отдельное приложение Meta AI используют Llama 4; расширяются мультимодальные функции (генерация и редактирование изображений, голос), остаётся крупный бесплатный слой и тестируются платные уровни Meta AI+.

Ограничения и риски

Лицензионные требования: для более 700 млн активных пользователей в месяц (MAU) требуется отдельное разрешение Meta*, которое может не быть выдано.
Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4.
Llama 4 Behemoth — по состоянию на март 2026 года остаётся внутренней/исследовательской моделью без открытых весов и без коммерческого использования.
Реальный длинный контекст: несмотря на заявленные 10 млн токенов у Scout, независимые тесты и практические руководства фиксируют деградацию качества и/или ограничение реализаций библиотеками уже при гораздо меньших длинах (десятки–сотни тысяч); для сценариев более 200K токенов требуется тщательное тестирование и специализированные конфигурации.
Архитектура «смесь экспертов» упрощает масштабирование по качеству при фиксированном числе активных параметров, но усложняет развёртывание и мониторинг ресурсов (особенно при высоких значениях контекста и на нескольких графических процессорах).
Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 и сторонние решения снижают риск, но не устраняют его полностью.
Официальное ценообразование Llama API: Meta постепенно выводит платные тарифы с низкой ценой для Llama 3.2/3.3 и Llama 4 (например, Scout от ~$0.08/$0.30, Maverick от ~$0.15/$0.60 за 1 млн токенов), но сама платформа всё ещё помечается как публичная предварительная версия, а условия и лимиты могут меняться.
Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах.

Сравнение цен

Чат (подписка)

Meta не предоставляет отдельный массовый платный сервис чата, подобный ChatGPT Plus, в качестве единственного способа доступа: базовый Meta AI (meta.ai и приложение Meta AI) остаются бесплатными для большинства пользователей, в то время как платный уровень Meta AI+ (~$10/месяц) тестируется для повышенных лимитов, более высокой скорости и доступа к премиальным моделям; корпоративные тарифы находятся в пилотном статусе.

API (модели через Together.ai и партнёров)

Провайдер	Модель	вход, $ / 1 млн	выход, $ / 1 млн	Ссылка
Meta (открытые веса)	Llama 4 Maverick	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
Together.ai	Llama 4 Maverick	$0.27	$0.85	цены
Groq	Llama 4 Scout	$0.11	$0.34	цены
Together.ai	Llama 4 Scout	$0.18	$0.59	цены
Meta / OpenRouter (минимум)	Llama 3.3 70B	$0.10	$0.32	цены
Meta (открытые веса)	Llama 3.1 70B / 405B	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
OpenRouter	Llama 4 Scout	$0.08	$0.30	цены
DeepInfra	Llama 4 Scout	$0.08	$0.30	цены
OpenAI	gpt-5	$1.25	$10.00	цены
Anthropic	claude-sonnet-4.5	$3.00	$15.00	цены

Бенчмарки (официальные; апрель 2025)

Модель	MMLU Pro (5-shot)	GPQA Diamond (0-shot)	HumanEval (pass@1)	MATH (0-shot)	Источник
Llama 4 Maverick	80.5%	69.8%	~90%	~75%	официально
Llama 4 Scout	74.3%	57.2%	~85%	~68%	официально
Llama 4 Behemoth (модель-учитель, превью)	82.2%	73.7%	~88%	95.0% (MATH-500)	официально
Llama 3.3 70B	68.9%	50.5%	88.4%	77.0%	официально
Llama 3.1 405B	73.3%	~50.7%	89.0%	~73.8–85%	официально
Llama 3.1 70B	66.4%	41.7%	80.5%	~68%	официально
GPT-5	не указано	85.7%	93.4%	не указано	официально / аналитика
Claude Sonnet 4.5	не указано	не указано	~90%+	не указано	официально / обзоры
DeepSeek V3 (V3-0324)	81.2%	68.4%	не указано	94.0% (MATH-500)	официально

Последние обновления (март 2026)

Llama 4 Scout и Maverick активно используются в промышленной эксплуатации; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код, агентные сценарии), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
Llama 3.3 70B остаётся фактически стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; Llama 3.1 70B во многих облаках помечена как устаревающая и выводится из новых развёртываний в пользу 3.3.
Llama 4 Behemoth по-прежнему не имеет открытых весов и остаётся моделью-учителем; Meta сосредотачивается на практических улучшениях Scout/Maverick и подготовке следующего поколения (Llama 4.X/5).
Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Oracle Cloud, экосистема Google через партнёров, IBM watsonx, Cloudflare Workers AI, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
Лицензионные ограничения (700 млн активных пользователей в месяц, обязательный брендинг «Built with Llama», региональные ограничения по ЕС для мультимодальных Llama 4) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B/70B) с SDK и конечными точками, совместимыми с OpenAI; по-прежнему позиционируется как публичная предварительная версия, но имеет реальные тарифы для многих моделей.
Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (например, модели Detoxio) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
Meta AI (meta.ai и отдельное приложение Meta AI) построены на Llama 4, расширяют мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс), при этом сохраняется бесплатный базовый доступ и тестируются платные уровни Meta AI+ с повышенными лимитами и премиальными моделями.

*Meta — признана в России экстремистской организацией, её деятельность запрещена.