LLaMA

Meta разрабатывает семейство открытых моделей Llama (3.1, 3.2, 3.3, 4.x), распространяет веса и документацию через официальный портал Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API, Llama Stack).

Линейка включает текстовые (Llama 3.1, 3.3) и мультимодальные (Llama 3.2 Vision, Llama 4 Scout/Maverick) варианты, ориентированные на локальный, периферийный и облачный вывод моделей. Llama 4 (Scout и Maverick, апрель 2025 года) — нативно мультимодальные модели с поддержкой контекста до 10M токенов (Scout) и 1M (Maverick); Llama 3.3 70B по качеству приближается к флагману Llama 3.1 405B при существенно меньшей цене и задержке.

Обновлено 9 февраля 2026 года.

Факты

Название	Meta Llama
Официальный сайт	llama.com
Документация	llama.com/docs
Чат	meta.ai
Страна	США
Разработчик	Meta Platforms, Inc. (Meta Superintelligence Labs)
Доступы	Веса/модели: Hugging Face и страница загрузок Llama API (превью): страница Llama Stack: документация Meta AI чат: meta.ai

Ссылки

История релизов

2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с контекстом до 128K — ссылка
2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 405B при меньшей цене и задержке; 86.0% MMLU, 88.4% HumanEval, 77.0% MATH — ссылка
2025-04-05 — релиз Llama 4 Maverick и Scout: нативно мультимодальные, архитектура «смесь экспертов», контекст до 1M/10M токенов, сильные показатели на многих тестах — ссылка
2025-04-15 — анонс Llama 4 Behemoth (288 млрд активных параметров, ~2 трлн всего, 16 экспертов): используется как модель-учитель для Scout/Maverick, остаётся внутренней и в ограниченном исследовательском доступе, открытые веса не опубликованы — ссылка
2025-12 — Llama 4.5/4.X в разработке Meta Superintelligence Labs; по состоянию на начало 2026 года модель не выпущена, Meta заявляет о планах дальнейших улучшений Llama 4 в 2026 году — ссылка

Модели (API и открытые веса)

ID (для API / загрузки)	Тип / режим	Контекст	Параметры (активные/всего)	Кратко	Поддержка / ограничения	Цены ($/1M токенов, Together.ai)	Документация
Llama 4 Maverick	Мультимодальная (смесь экспертов, флагманская)	до 1,000,000	17 млрд активных / ~400 млрд всего (128 экспертов)	Мощная открытая мультимодальная модель; высокие показатели на многих тестах; ~80.5% MMLU Pro, ~69.8% GPQA Diamond, ~90% HumanEval. Рекомендуется для приложений, где важны максимальное качество и мультимодальные возможности.	Нативно мультимодальная (вход: текст + изображения, выход: текст) Открытые веса (лицензия Llama 4 Community) Архитектура «смесь экспертов»; эффективные 17B активных параметров Коммерческое использование: для организаций с >700 млн MAU требуется отдельное разрешение Meta Доступна через Together.ai, Groq, AWS, Azure, IBM watsonx, Oracle Cloud, Hugging Face и др. Интегрирована в Meta AI (WhatsApp, Messenger, Instagram, веб и отдельное приложение Meta AI) Лицензия ограничивает прямое использование мультимодальных моделей Llama 4 организациями, зарегистрированными в ЕС	вход: $0.27; выход: $0.85	документация
Llama 4 Scout	Мультимодальная (смесь экспертов, эффективная, длинный контекст)	до 10,000,000	17 млрд активных / 109 млрд всего (16 экспертов)	Эффективная мультимодальная модель для периферии и облака; может работать на одном H100 (в квантованных режимах); контекст до 10 млн токенов; баланс качества, стоимости и скорости. Часто используется как выбор для длинного контекста и периферийных сценариев.	Нативно мультимодальная Открытые веса (лицензия Llama 4 Community) Оптимизирована для скорости и развёртывания на периферии и в облаке Коммерческие ограничения: дополнительная лицензия для организаций с >700 млн MAU Квантование в int4/int8 поддерживается многими фреймворками Лицензия запрещает прямое использование мультимодальных моделей Llama 4 разработчикам, зарегистрированным в ЕС; конечные пользователи в ЕС могут получать доступ к сервисам на базе Llama 4, развёрнутым за пределами ЕС	вход: $0.18; выход: $0.59	документация
Llama 4 Behemoth	Мультимодальная (смесь экспертов, модель-учитель / сверхкрупная)	не указано (внутренняя модель)	288 млрд активных / ~2 трлн всего (16 экспертов)	Сверхкрупная модель, используемая как модель-учитель для Scout/Maverick; по опубликованным тестам показывает передовые результаты на STEM-задачах (82.2% MMLU Pro, 73.7% GPQA, ~88% HumanEval, ~95% MATH-500). По состоянию на начало 2026 года не имеет открытых весов и недоступна для коммерческого использования.	Нативно мультимодальная Статус: внутренняя модель и ограниченное исследовательское превью; нет публичного API с открытыми весами Требует крайне значительных вычислительных ресурсов; рассматривалась как кандидат для будущих флагманских релизов Используется для дистилляции и обучения Llama 4 Scout/Maverick	не указано	объявление
Meta-Llama-3.3-70B-Instruct	Текст (открытые веса, оптимизированная)	до 128,000	70 млрд	Оптимизированная версия семейства 3.x; по качеству близка к Llama 3.1 405B при стоимости и задержке, характерных для 70B; 86.0% MMLU, 88.4% HumanEval, ~77% MATH. Фактически стала стандартной крупной текстовой моделью Llama 3.x у многих провайдеров.	Только текстовая модель (текст на входе / текст на выходе) Открытые веса (лицензия Llama 3 Community) Отличное соотношение цена/качество для текстовых и программных задач Поддерживает локальный и облачный вывод моделей, контекст до 128K Широко доступна через Together, Groq, DeepInfra, Fireworks, Azure, CoreWeave и др.	~$0.10 вход; ~$0.40 выход (через популярных провайдеров)	документация
Meta-Llama-3.1-70B-Instruct	Текст (открытые веса)	до 128,000	70 млрд	Сбалансированная модель 70B семейства 3.1; 66.4% MMLU Pro, ~80.5% HumanEval. Постепенно вытесняется Llama 3.3 70B, но остаётся доступной и используется там, где уже интегрирована.	Локальный и облачный вывод моделей Модель остаётся доступной и поддерживается в экосистеме Для новых проектов обычно рекомендуется Llama 3.3 70B вместо неё	бесплатно (открытые веса) или через API-провайдеров	документация
Meta-Llama-3.1-405B-Instruct	Текст (открытые веса, крупная)	до 128,000	405 млрд	Крупная универсальная текстовая модель семейства 3.1; ~87.3% MMLU, ~73.4% MMLU Pro, ~89.0% HumanEval. До появления Llama 4 Behemoth рассматривалась как флагманская открытая плотная модель Meta и по-прежнему используется там, где критично качество текста при допустимой стоимости инфраструктуры.	Только текст Коммерческое использование — по лицензии Meta Llama 3 Доступ через партнёров (например, Oracle, Azure, IBM) или для локального развёртывания Требует значительных ресурсов (сотни ГБ памяти в высокоточных форматах); для экономии обычно используется квантование	бесплатно (загрузка весов)	документация
Meta-Llama-3.2-90B-Vision-Instruct	Текст + изображения (мультимодальная)	до 128,000	90 млрд	Мультимодальная модель среднего размера; поддерживает восприятие изображений и визуальное рассуждение. Всё ещё активно используется для визуальных задач, хотя часть сценариев переходит на Llama 4 Scout/Maverick.	Вход: текст + изображения; выход: текст Фокус: распознавание, визуальное рассуждение, работа с документами Открытые веса Поддерживается сообществом и провайдерами; для новых проектов часто сравнивается с Llama 4 Scout	бесплатно (открытые веса)	документация
Meta-Llama-3.2-11B-Vision-Instruct	Текст + изображения (лёгкая мультимодальная)	до 128,000	11 млрд	Лёгкая мультимодальная модель для периферии и развёртывания на устройствах; остаётся актуальной для периферийных приложений, где Llama 4 Scout слишком тяжела.	Оптимизирована для мобильных и периферийных устройств Поддерживает квантование (int4/int8) и выполнение в ограниченных средах Открытые веса	бесплатно (открытые веса)	документация
Meta-Llama-3.2-3B-Instruct	Текст (лёгкая)	до 128,000	3 млрд	Лёгкая текстовая модель для низкой задержки и мобильных приложений; подходит для работы на устройстве и бессерверных сценариев.	Поддерживает квантование и работу на устройстве Многоязычность поддерживается на уровне Llama 3.x Открытые веса	бесплатно (открытые веса)	документация
Meta-Llama-3.2-1B-Instruct	Текст (ультралёгкая)	до 8,000	1 млрд	Мини-модель для жёстких ограничений по ресурсам; подходит для мобильных и периферийных сценариев, где критичны энергопотребление и размер.	Ориентирована на мобильные устройства и микросервисы Лицензия Llama 3 Community Открытые веса	бесплатно (открытые веса)	документация
Llama Guard 4	Мультимодальный классификатор безопасности	~160,000	12 млрд	Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Релиз 30 апреля 2025 года; используется как основная защита в стеке Llama 4.	Мультимодальная (поддерживает анализ текста и изображений) Плотная архитектура (производный вариант от Llama 4 Scout) Может работать на одном современном GPU; поддерживается крупными провайдерами Открытые веса Поддерживает множество языков и таксономию категорий MLCommons В независимых тестах при связке с Llama 4 блокирует ~66% атакующих запросов; остаточный риск сохраняется, поэтому рекомендуется многоуровневая защита	бесплатно (открытые веса; коммерческий API — от ~$0.18/1M токенов у провайдеров)	документация

Ключевые особенности

Открытые веса: загрузки на Hugging Face и llama.com/llama-downloads
Llama 4 — нативно мультимодальная линейка с архитектурой «смесь экспертов» (Scout и Maverick с апреля 2025 года)
Рекордные контекстные окна среди открытых моделей: Scout до 10 млн токенов, Maverick до 1 млн; Llama 3.x до 128K
Поддержка локального, периферийного и облачного развёртывания (инициатива Llama Everywhere и Llama Stack)
Llama API (превью) и Llama Stack как опорные продукты экосистемы; также интеграции с партнёрскими API (Together, Groq, DeepInfra, Lambda, CentML, Cerebras, Azure, AWS и др.)
Llama Guard 4 как встроенная система защиты для мультимодального контента; дополняется сторонними решениями (VirtueGuard, Detoxio и др.)
Официальные руководства по дообучению, квантованию, развёртыванию и интеграциям с вычислительными фреймворками (vLLM, TGI, Triton, ExecuTorch и др.)
Llama 4.X (условная «Llama 4.5») находится в активной разработке Meta Superintelligence Labs; релиз ожидается в 2026 году, Meta заявляет цель улучшить качество Llama 4 и расширить мультимодальные возможности
Meta AI чат (meta.ai) и отдельное приложение Meta AI используют Llama 4 в WhatsApp, Messenger, Instagram, Facebook и на вебе

Ограничения и риски

Лицензионные требования: для MAU > 700 млн требуется отдельное разрешение Meta, которое может не быть выдано
Ограничения для ЕС: права на использование мультимодальных моделей Llama 4 по лицензии Llama 4 Community не предоставляются лицам и компаниям, зарегистрированным в ЕС; однако конечные пользователи в ЕС могут пользоваться сервисами, развёрнутыми за пределами ЕС и использующими Llama 4
Llama 4 Behemoth — по состоянию на февраль 2026 года остаётся в статусе внутренней/исследовательской модели, без открытых весов и без коммерческого использования
Реальный длинный контекст: несмотря на заявленные 10M токенов у Scout, независимые тесты фиксируют деградацию качества уже при гораздо меньших длинах контекста; для практики рекомендуется тщательно тестировать сценарии > 200K токенов
Архитектура «смесь экспертов» упрощает масштабирование по качеству, но усложняет развёртывание и требует продуманной оркестрации и мониторинга ресурсов, даже при квантовании
Уязвимости безопасности: независимые отчёты показывают средний уровень риска для Llama 4 Scout и Maverick; эффективные атаки включают обход ограничений, внедрение вредоносных инструкций и мультимодальные обходы фильтров; Llama Guard 4 снижает риск, но не устраняет его полностью
Официальное ценообразование Llama API от Meta остаётся в режиме превью; большинство пользователей получают доступ к моделям через партнёрские платформы и локальный вывод моделей
Часть документации и утилит (например, некоторые функции Llama API и Llama Stack) требует регистрации и авторизации; детали нужно уточнять в актуальных модельных карточках и руководствах

Сравнение цен

Чат (подписка)

Meta не предоставляет собственный массовый платный чат-сервис наподобие ChatGPT Plus. Meta AI (meta.ai) и отдельное приложение Meta AI доступны бесплатно; монетизация сосредоточена на инфраструктуре и коммерческом API (Llama API) и партнёрских платформах.

API (модели через Together.ai и партнёров)

Провайдер	Модель	вход, $/1M	выход, $/1M	Ссылка
Meta (открытые веса)	Llama 4 Maverick	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
Together.ai	Llama 4 Maverick	$0.27	$0.85	цены
Groq	Llama 4 Scout	$0.11	$0.34	цены
Together.ai	Llama 4 Scout	$0.18	$0.59	цены
Together.ai	Llama 3.3 70B	$0.10	$0.40	цены
Meta (открытые веса)	Llama 3.1 70B / 405B	бесплатно (загрузка)	бесплатно (загрузка)	huggingface.co
OpenRouter	Llama 4 Scout	$0.10	$0.32	цены
DeepInfra	Llama 4 Scout	$0.08	$0.30	цены
OpenAI	gpt-5	$1.25	$10.00	цены
Anthropic	claude-sonnet-4.5	$3.00	$15.00	цены

Бенчмарки (официальные; апрель 2025)

Модель	MMLU Pro (5-shot)	GPQA Diamond (0-shot)	HumanEval (pass@1)	MATH (0-shot)	Источник
Llama 4 Maverick	80.5%	69.8%	~90%	~75%	официально
Llama 4 Scout	74.3%	57.2%	~85%	~68%	официально
Llama 4 Behemoth (модель-учитель, превью)	82.2%	73.7%	~88%	95.0% (MATH-500)	официально
Llama 3.3 70B	68.9%	50.5%	88.4%	77.0%	официально
Llama 3.1 405B	73.4%	~50.7%	89.0%	~85%	официально
Llama 3.1 70B	66.4%	41.7%	80.5%	~68%	официально
GPT-5	не указано	85.7%	93.4%	не указано	официально
Claude Sonnet 4.5	не указано	не указано	~90%	не указано	официально
DeepSeek V3 (V3-0324)	81.2%	68.4%	не указано	94.0% (MATH-500)	официально

Последние обновления (февраль 2026)

Llama 4 Scout и Maverick активно используются в производстве; Scout популярен для обработки длинного контекста (многодокументный анализ, длинный код), а Maverick — как основной мультимодальный ассистент высокого качества у множества провайдеров и в корпоративных продуктах.
Llama 3.3 70B остаётся де-факто стандартной крупной текстовой моделью Llama 3.x с отличным соотношением цена/качество; 3.1 70B постепенно выводится из новых развёртываний в пользу 3.3.
Llama 4 Behemoth пока не имеет открытых весов и остаётся моделью-учителем; Meta сосредотачивается на практических улучшениях Scout/Maverick и подготовке следующего поколения (Llama 4.X/5).
Модели Llama 4 интегрированы в крупные облачные платформы (AWS, Azure, Google Vertex AI, IBM watsonx, Oracle Cloud, Together, Groq, DeepInfra и др.), что упрощает развёртывание и даёт широкий выбор по цене и задержке.
Лицензионные ограничения (700M MAU, обязательный брендинг «Built with Llama», запрет прямого использования мультимодальных моделей Llama 4 в ЕС) остаются предметом дискуссий в сообществе о степени «открытости» Llama 4.
Llama API развивается как унифицированный способ доступа к моделям Llama (включая Llama 4 и Llama 3.3 8B) с SDK, совместимыми с API OpenAI; статус остаётся превью, но доступ расширен для большого числа разработчиков.
Безопасность Llama 4: независимые оценки подтверждают средний уровень уязвимостей; связка Llama Guard 4 + внешние решения (VirtueGuard, Detoxio и др.) существенно повышает устойчивость, но не устраняет необходимость многоуровневого контроля и аудита.
Meta AI (meta.ai и отдельное приложение Meta AI) построены на Llama 4 и расширяют мультимодальные функции (генерация и редактирование изображений, голосовой интерфейс), обеспечивая лучшее понимание контекста и многоязычную поддержку в продуктах Meta.

*Meta — признана в России экстремистской организацией, её деятельность запрещена.

Новости

TextQuests оценил, насколько эффективны языковые модели в текстовых играх

Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.

Lambda запускает облачные инстансы с NVIDIA Blackwell: прорыв для обучения LLM

Lambda запустила инстансы с 8 GPU NVIDIA B200 по $4.99/GPU-час. Архитектура Blackwell обещает 3× ускорение обучения LLM и 15× рост скорости инференса.

Бурный рост акций Nvidia: как капитализация в $5 трлн стала новой нормой для короля AI-железа

Капитализация Nvidia достигла $4 трлн благодаря ИИ-буму. Microsoft и Meta инвестируют $150+ млрд в GPU-инфраструктуру, укрепляя монополию компании. Анализ перспектив и рисков.

Тонкая настройка ИИ

Nscale Fine-tuning: Дообучение моделей без инфраструктурной головной боли

Nscale запустил serverless-платформу для дообучения open-source ИИ-моделей без управления инфраструктурой. Тарификация за токены, live-мониторинг и $5 на тесты.

Марк Цукерберг и эра персонального суперинтеллекта: утопия или новый захват данных?

Анализ манифеста Цукерберга о персональном ИИ: за риторикой о свободе творчества скрывается стратегия Meta по захвату данных через умные очки. Экспертная оценка рисков.

Улучшение низкобитных операторов в PyTorch и ExecuTorch: динамический выбор ядер, KleidiAI и квантованные связанные эмбеддинги

TorchAO представляет динамический выбор ядер, интеграцию с KleidiAI и квантованные связанные эмбеддинги для ускорения низкобитного вывода на Arm CPU. Результат: 2-кратный прирост скорости на M1.