LLaMA

Meta* развивает семейство открытых моделей Llama (3.x/4), распространяет веса и документацию на официальном портале Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API — превью, Llama Stack). Линейка включает текстовые (Llama 3.1, 3.3) и мультимодальные (Llama 3.2 Vision) варианты, ориентированные на локальный и облачный inference.

Модели (API)

ID (для API) Тип / режим Контекст Кратко Поддержка / ограничения Цены ($/1M) Документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса) не указано Крупная универсальная модель семейства 3.1.
  • Коммерческое использование — по лицензии
  • Доступ через партнёров / Llama API (превью)
не указано документация
Meta-Llama-3.1-70B-Instruct Текст (открытые веса) не указано Сбалансированная модель 70B.
  • Локальный и облачный inference
  • Интеграции — см. «Llama Everywhere»
не указано документация
Meta-Llama-3.2-90B-Vision-Instruct Текст+изображения не указано Мультимодальная (vision) модель среднего размера.
  • Вход: текст+картинки; выход: текст
  • Фокус: распознавание и визуальное рассуждение
не указано документация
Meta-Llama-3.2-11B-Vision-Instruct Текст+изображения не указано Лёгкая мультимодальная (vision) модель.
  • Оптимизация под edge/он-девайс
  • Квантизации — см. гайд
не указано документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) не указано Лёгкая текстовая 3B для низкой латентности.
  • Квантизации и on-device
  • Поддержка мультиязычности
не указано документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) не указано Мини-модель для крайних ограничений по ресурсам.
  • Ориентирована на мобильные/edge-сценарии
  • Лицензия Meta Llama 3
не указано документация
Meta-Llama-3.3-70B-Instruct Текст (открытые веса) не указано Актуальное 70B-поколение (3.3).
  • См. «Downloads / Llama 3.3»
  • Коммерческое использование — по лицензии
не указано страница

Ключевые особенности

  • Открытые веса: загрузки и документация на llama.meta.com
  • Текстовые и мультимодальные (Vision) варианты (Llama 3.2)
  • Поддержка локального, edge и облачного развёртывания («Llama Everywhere»)
  • Llama API (превью) и Llama Stack как продукты экосистемы
  • Официальные гайды по fine-tuning, quantization, интеграциям

Рекомендации по применению

  • Llama 3.1 (405B/70B) — универсальные ассистенты, кодинг, многоязычные сценарии
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, on-device/edge
  • Llama 3.2 (1B/3B) — низкая латентность и экономия ресурсов

Ограничения и риски

  • Официальное API и прайсинг от Meta не опубликованы (Llama API — превью)
  • Часть блог-страниц требует авторизации; детали уточняйте в карточках моделей
  • Лицензионные требования Meta Llama распространяются на использование и брендирование

Сравнение цен

Чат (подписка)

Провайдер План / уровень Цена (как в оф. источнике) Ссылка
OpenAI ChatGPT Plus $20 / месяц прайсинг
Anthropic Claude Pro $20 / месяц (или $17/мес при годовой оплате) прайсинг
Google Google AI Pro $19.99 / месяц прайсинг
Mistral Le Chat Pro €19 / месяц прайсинг

API (модели)

Провайдер Модель / ID in (hit), $/1M out, $/1M Ссылка
Meta Llama (открытые веса) официально
OpenAI gpt-5 $1.25 $10.00 прайсинг
OpenAI gpt-4o-mini $0.15 $0.60 прайсинг
Anthropic claude-sonnet-4 $0.30 $15.00 прайсинг
Google gemini-2.5-pro $10.00 (≤200k) / $15.00 (>200k) прайсинг
xAI grok-4 $0.75 (cached) $15.00 прайсинг
Mistral devstral-medium-2507 $2.00 прайсинг

Бенчмарки (официальные)

Провайдер Модель / ID GPQA (Diamond) MMLU MMLU Pro DROP (F1) HumanEval (pass@1) Источник
Meta Llama 3.1 405B Instruct 50.7% 87.3% 73.3% 84.8% 89.0% официально
Meta Llama 3.1 70B Instruct 41.7% 83.6% 66.4% 79.6% 80.5% официально
OpenAI GPT-5 85.7% 92.5% не указано не указано 93.4% официально
OpenAI GPT-4.1 66.3% 90.2% не указано не указано не указано официально
OpenAI GPT-4o mini 40.2% 82.0% не указано 79.7% 87.2% официально
Google Gemini 2.5 Pro 83.0% не указано не указано не указано не указано официально
Google Gemini 2.5 Flash 82.8% не указано не указано не указано не указано официально
xAI Grok-4 Heavy 88.4% не указано не указано не указано не указано официально
xAI Grok-4 87.5% не указано не указано не указано не указано официально
xAI Grok 3 84.6% не указано не указано не указано не указано официально
Anthropic Claude 3.5 Sonnet 67.2% 90.4% 77.6% 87.1% 93.7% официально
DeepSeek DeepSeek-R1-0528 81.0% не указано 85.0% не указано не указано официально
DeepSeek DeepSeek-V3 59.1% 88.5% 75.9% 91.6% не указано официально
Meta Llama 3.3 70B Instruct 33.3% не указано не указано не указано не указано официально
Alibaba Qwen2.5 72B Instruct 49.0% не указано 71.1% не указано 86.6% официально
Alibaba Qwen2.5 32B Instruct 49.5% 83.3% 69.0% не указано 88.4% официально
Mistral Devstral Medium не указано не указано не указано не указано не указано официально
AI21 Jamba 1.5 Large 36.9% 81.2% 53.5% не указано не указано официально
Microsoft Phi 4 56.1% 84.8% 70.4% 75.5% 82.6% официально

*Meta — признана в России экстремистской организацией, ее деятельность запрещена

Новости

Бурный рост акций Nvidia: как капитализация в $5 трлн стала новой нормой для короля AI-железа

Капитализация Nvidia достигла $4 трлн благодаря ИИ-буму. Microsoft и Meta инвестируют $150+ млрд в GPU-инфраструктуру, укрепляя монополию компании. Анализ перспектив и рисков.

Тонкая настройка ИИ

Nscale Fine-tuning: Дообучение моделей без инфраструктурной головной боли

Nscale запустил serverless-платформу для дообучения open-source ИИ-моделей без управления инфраструктурой. Тарификация за токены, live-мониторинг и $5 на тесты.

Марк Цукерберг и эра персонального суперинтеллекта: утопия или новый захват данных?

Анализ манифеста Цукерберга о персональном ИИ: за риторикой о свободе творчества скрывается стратегия Meta по захвату данных через умные очки. Экспертная оценка рисков.

Улучшение низкобитных операторов в PyTorch и ExecuTorch: динамический выбор ядер, KleidiAI и квантованные связанные эмбеддинги

TorchAO представляет динамический выбор ядер, интеграцию с KleidiAI и квантованные связанные эмбеддинги для ускорения низкобитного вывода на Arm CPU. Результат: 2-кратный прирост скорости на M1.