Факты

Название Meta Llama
Официальный сайт llama.meta.com
Документация llama.meta.com/docs
Чат meta.ai
Страна США
Разработчик Meta Platforms, Inc. (Meta Superintelligence Labs)
Доступы

Ссылки

История релизов

  • 2024-07-23 — Llama 3.1 (405B/70B/8B) с контекстом 128K; передовая текстовая модель для своего времени — ссылка
  • 2024-09-25 — Llama 3.2 (Vision 11B/90B и текст 1B/3B) — мультимодальные и лёгкие варианты с 128K контекстом — ссылка
  • 2024-12-06 — Llama 3.3 70B: текстовая модель с производительностью Llama 3.1 405B при меньшей цене и задержке; 86.0% MMLU, 88.4% HumanEval — ссылка
  • 2025-04-05 — Релиз Llama 4 Maverick и Scout: нативно мультимодальные, архитектура MoE, контекст до 1M/10M токенов, лучшие показатели на многих бенчмарках — ссылка
  • 2025-04-15 — Анонс Llama 4 Behemoth (2 трлн параметров, 288 млрд активных): в лимитированном превью, полный релиз отложен до осени 2025 и далее — ссылка
  • 2025-12 — Llama 4.5/4.X в разработке Meta Superintelligence Labs; разработка ведется в режиме приоритета для исправления недостатков Llama 4 и восстановления репутации на рынке открытых моделей — ссылка

Модели (API и открытые веса)

ID (для API / загрузки) Тип / режим Контекст Параметры (активные/всего) Кратко Поддержка / ограничения Цены ($/1M токенов, Together.ai) Документация
Llama 4 Maverick Мультимодальная (MoE передовая) до 1,000,000 17 млрд активных / 402 млрд всего (128 экспертов) Мощная открытая мультимодальная модель; высокие показатели на многих бенчмарках; 80.5% MMLU Pro, 69.8% GPQA, ~90% HumanEval. Рекомендуется для приложений требующих лучшее качество.
  • Нативно мультимодальная (текст + изображения → текст)
  • Открытые веса (лицензия Meta Llama 4)
  • Архитектура MoE (памяти ~80-100 ГБ в BF16)
  • Коммерческое использование: требуется лицензия от Meta для 700 млн+ MAU
  • Доступна через Together.ai, Groq, Hugging Face и другие
  • Интеграция в Meta AI (WhatsApp, Messenger, Instagram, Веб)
  • Недоступна для разработчиков в ЕС из-за требований EU AI Act
вход: $0.27; выход: $0.85 документация
Llama 4 Scout Мультимодальная (MoE эффективная) до 10,000,000 17 млрд активных / 109 млрд всего (16 экспертов) Эффективная мультимодальная модель для периферии и облака; работает на одном H100; контекст до 10 млн токенов; баланс качества и скорости. Активно используется в производстве.
  • Нативно мультимодальная
  • Открытые веса (лицензия Meta Llama 4)
  • Памяти ~30 ГБ (BF16) / компактнее Maverick
  • Оптимизирована для скорости и развертывания на периферии
  • Коммерческие ограничения: 700 млн+ MAU
  • Квантование в int4/int8 возможно
  • ОГРАНИЧЕНИЕ ЕС: как и Maverick
вход: $0.18; выход: $0.59 документация
Llama 4 Behemoth Мультимодальная (MoE ультра) не указано 288 млрд активных / 2 трлн всего (16 экспертов) Ультрабольшая модель; SOTA показатели на STEM; 82.2% MMLU Pro, 73.7% GPQA, 95.0% MATH-500. Ещё НЕ выпущена — находится в лимитированном превью (сентябрь 2025).
  • Нативно мультимодальная
  • Статус: лимитированное исследовательское превью, НЕ для коммерческого развертывания
  • Требует значительные вычислительные ресурсы
  • Полный релиз отложен на неопределенный срок (осень 2025+)
  • Существует в форме модели для дистилляции в Maverick/Scout
не указано объявление
Meta-Llama-3.3-70B-Instruct Текст (открытые веса, оптимизированная) до 128,000 (эффективно ~80K) 70 млрд Оптимизированная версия 3.1 70B; производительность 3.1 405B по цене и скорости 70B; 86.0% MMLU, 88.4% HumanEval, 77.0% MATH. Используется по умолчанию в Meta AI. Вытеснила 3.1 70B в экосистеме.
  • Только текстовая модель
  • Открытые веса (лицензия Meta Llama 3)
  • Отличное соотношение цена/качество
  • Локальный и облачный инференс
  • Активно используется и поддерживается
~$0.10 вход; ~$0.40 выход (различные провайдеры) документация
Meta-Llama-3.1-70B-Instruct Текст (открытые веса) до 128,000 70 млрд Сбалансированная модель 70B семейства 3.1; 66.4% MMLU Pro, 80.5% HumanEval. Постепенно вытесняется Llama 3.3 70B.
  • Локальный и облачный инференс
  • Все еще доступна и поддерживается
  • Рекомендуется переходить на Llama 3.3 для новых проектов
бесплатно (открытые веса) или через API-провайдеров документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса, передовая) до 128,000 405 млрд Крупная универсальная модель семейства 3.1; 87.3% MMLU, 73.3% MMLU Pro, 89.0% HumanEval. Вытеснена Llama 4 Behemoth по производительности.
  • Только текст
  • Коммерческое использование — по лицензии Meta Llama
  • Доступ через партнёров или локальное развертывание
  • Требует значительные ресурсы (~300 ГБ в FP32)
бесплатно (загрузка весов) документация
Meta-Llama-3.2-90B-Vision-Instruct Текст+изображения (мультимодальная) до 128,000 90 млрд Мультимодальная модель среднего размера; восприятие изображений и визуальное рассуждение. Все еще активно используется, особенно для vision-задач.
  • Вход: текст+картинки; выход: текст
  • Фокус: распознавание и визуальное рассуждение
  • Открытые веса
  • Поддерживается, но постепенно заменяется Llama 4 Scout/Maverick
бесплатно (открытые веса) документация
Meta-Llama-3.2-11B-Vision-Instruct Текст+изображения (лёгкая) до 128,000 11 млрд Лёгкая мультимодальная модель для периферии и развертывания на устройствах. Остается актуальна для edge-приложений.
  • Оптимизирована для мобильных и периферийных устройств
  • Поддержка квантования (int4/int8)
  • Открытые веса
бесплатно (открытые веса) документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) до 128,000 3 млрд Лёгкая текстовая модель для низкой задержки и мобильных приложений.
  • Квантование и поддержка работы на устройстве
  • Мультиязычность поддерживается
  • Открытые веса
бесплатно (открытые веса) документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) до 8,000 1 млрд Мини-модель для крайних ограничений по ресурсам; мобильные и периферийные сценарии.
  • Ориентирована на мобильные устройства
  • Лицензия Meta Llama 3
  • Открытые веса
бесплатно (открытые веса) документация
Llama Guard 4 Мультимодальный классификатор безопасности 12 млрд Модель безопасности для фильтрации вредоносного контента в текстовых и мультимодальных входах/выходах. Новая версия (апрель 2025).
  • Мультимодальна (поддерживает текст и изображения)
  • Плотная архитектура (pruned из Llama 4 Scout)
  • Работает на одном GPU (24 ГБ VRAM)
  • Открытые веса
  • Поддержка множественных языков
  • Блокирует ~66% атак, но 34% могут пройти
бесплатно (открытые веса) документация

Ключевые особенности

  • Открытые веса: загрузки на Hugging Face и llama.meta.com/llama-downloads
  • Llama 4 — нативно мультимодальная с архитектурой смеси экспертов (Scout и Maverick с апреля 2025)
  • Рекордные контекстные окна: Scout до 10 млн токенов, Maverick до 1 млн (апрель 2025); Llama 3.x до 128K
  • Поддержка локального, периферийного и облачного развёртывания (Llama Everywhere)
  • Llama API (лимитированное превью) и Llama Stack как продукты экосистемы; также через партнёрские API (Together, Groq, Lambda и др.)
  • Llama Guard 4 как встроенная система защиты для мультимодального контента
  • Официальные гайды по дообучению, квантованию, интеграциям с вычислительными фреймворками
  • Llama 4.5 (или 4.X) в активной разработке Meta Superintelligence Labs; ожидается конец 2025 года (направлена на исправление недостатков April release)
  • Meta AI чат (meta.ai) интегрирует Llama 4 в WhatsApp, Messenger, Instagram и Веб

Рекомендации по применению

  • Llama 4 Maverick / Scout — универсальные ассистенты, мультимодальные приложения, кодинг, агентные системы (открытая альтернатива закрытым моделям)
  • Llama 3.3 70B — текстовые задачи, кодинг, многоязычные сценарии (оптимальное соотношение цена/качество); используется по умолчанию в Meta AI
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, работа на устройстве/периферии
  • Llama 3.2 (1B/3B) — низкая задержка, мобильные приложения, вычисления на периферии
  • Llama 4 Behemoth (когда будет выпущена) — конкуренция с GPT-5 и другими флагманскими моделями на STEM-задачах

Ограничения и риски

  • Лицензионные требования: для MAU > 700 млн требуется отдельное разрешение Meta (может быть отказано)
  • Недоступность в ЕС: Llama 4 (все мультимодальные модели) недоступны для разработчиков в ЕС из-за требований EU AI Act; однако услуги, использующие Llama 4 за пределами ЕС, могут предоставляться EU пользователям
  • Llama 4 Behemoth — все ещё в лимитированном превью, не выпущена для коммерческого использования (по состоянию на декабрь 2025)
  • Длинный контекст (>200K) — Llama 4 показывает некоторую деградацию на практических тестах long-context
  • Архитектура смеси экспертов требует значительную память даже с квантованием
  • Уязвимости безопасности: оба Llama 4 Scout и Maverick показали средний уровень риска; Virtue AI выявила существенные риски в соответствии нормативно-правовым актам, генерации вредоносного кода и multi-modal атаках. Llama Guard 4 блокирует ~66% вредоносных промптов, но ~34% могут пройти
  • Официальное ценообразование API от Meta не опубликовано; доступны через партнёров (Together.ai, Groq и др.)
  • Часть документации требует авторизации; детали уточняйте в карточках моделей на Hugging Face

Сравнение цен

Чат (подписка)

Meta не предоставляет собственный платный чат-сервис наподобие ChatGPT Plus. Meta AI (meta.ai) имеет базовый доступ; для API-доступа используются партнёрские платформы или локальный инференс.

API (модели через Together.ai и партнёры)

Провайдер Модель вход, $/1M выход, $/1M Ссылка
Meta (Открытые веса) Llama 4 Maverick бесплатно (загрузка) бесплатно (загрузка) huggingface.co
Together.ai Llama 4 Maverick $0.27 $0.85 цены
Groq Llama 4 Scout $0.11 $0.34 цены
Together.ai Llama 3.3 70B $0.10 $0.40 цены
Meta (Открытые веса) Llama 3.1 70B / 405B бесплатно (загрузка) бесплатно (загрузка) huggingface.co
CentML Llama 4 Scout (FP8) $0.10 $0.32 цены
OpenAI gpt-5 $1.25 $10.00 цены
Anthropic claude-sonnet-4-5 $3.00 $15.00 цены

Бенчмарки (официальные; апрель 2025)

Модель MMLU Pro (5-shot) GPQA Diamond (0-shot) HumanEval (pass@1) MATH (0-shot) Источник
Llama 4 Maverick 80.5% 69.8% ~90% ~75% официально
Llama 4 Scout 74.3% 57.2% ~85% ~68% официально
Llama 4 Behemoth (превью) 82.2% 73.7% ~88% 95.0% (MATH-500) официально
Llama 3.3 70B 68.9% 50.5% 88.4% 77.0% официально
Llama 3.1 405B 73.3% ~50.7% 89.0% ~85% официально
Llama 3.1 70B 66.4% 41.7% 80.5% ~68% официально
GPT-5 не указано 85.7% 93.4% не указано официально
Claude Sonnet 4.5 не указано не указано ~90% не указано официально
DeepSeek V3 75.9% 59.1% не указано не указано официально

Последние обновления (декабрь 2025)

  • Llama 4 Scout и Maverick активно используются в производстве; Scout на одном H100, Maverick как основной выбор для приложений требующих лучшее качество и производительность.
  • Llama 3.3 70B показывает отличное соотношение цена/качество и вытеснила Llama 3.1 70B в экосистеме; используется в Meta AI чате по умолчанию в некоторых регионах.
  • Llama 4 Behemoth остается в лимитированном превью; Meta отложила полный релиз из-за критики апреля относительно качества и производительности на практических задачах (рассуждение, кодинг, инструкции).
  • Llama 4.5/4.X в активной разработке Meta Superintelligence Labs; ожидается выпуск до конца 2025 года как исправление недостатков April-версии Llama 4.
  • Архитектура смеси экспертов требует тщательной оптимизации для развертывания на периферии; требует значительных ресурсов памяти.
  • Лицензионные ограничения (700M MAU) и недоступность в ЕС для мультимодальных моделей вызывают дискуссию в сообществе относительно «истинной» открытости Llama 4.
  • Llama API в лимитированном превью; Meta расширяет партнёрства с провайдерами облачных вычислений (Together.ai, Groq, CentML) для оптимального развёртывания.
  • Безопасность Llama 4: выявлены средний уровень уязвимостей; Llama Guard 4 (апрель 2025) как дополнительная система защиты — блокирует ~66% вредоносных промптов, но остаток может пройти. Требуется комплексный подход к безопасности при развертывании.
  • Meta AI (meta.ai) интегрирует Llama 4 в WhatsApp, Messenger, Instagram и веб-чат; обеспечивает лучшее понимание контекста, скорость ответов и многоязычную поддержку.