LLaMA

Meta* развивает семейство открытых моделей Llama (3.x/4), распространяет веса и документацию на официальном портале Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API — превью, Llama Stack). Линейка включает текстовые (Llama 3.1, 3.3) и мультимодальные (Llama 3.2 Vision) варианты, ориентированные на локальный и облачный inference.

Модели (API)

ID (для API) Тип / режим Контекст Кратко Поддержка / ограничения Цены ($/1M) Документация
Meta-Llama-3.1-405B-Instruct Текст (открытые веса) не указано Крупная универсальная модель семейства 3.1.
  • Коммерческое использование — по лицензии
  • Доступ через партнёров / Llama API (превью)
не указано документация
Meta-Llama-3.1-70B-Instruct Текст (открытые веса) не указано Сбалансированная модель 70B.
  • Локальный и облачный inference
  • Интеграции — см. «Llama Everywhere»
не указано документация
Meta-Llama-3.2-90B-Vision-Instruct Текст+изображения не указано Мультимодальная (vision) модель среднего размера.
  • Вход: текст+картинки; выход: текст
  • Фокус: распознавание и визуальное рассуждение
не указано документация
Meta-Llama-3.2-11B-Vision-Instruct Текст+изображения не указано Лёгкая мультимодальная (vision) модель.
  • Оптимизация под edge/он-девайс
  • Квантизации — см. гайд
не указано документация
Meta-Llama-3.2-3B-Instruct Текст (лёгкая) не указано Лёгкая текстовая 3B для низкой латентности.
  • Квантизации и on-device
  • Поддержка мультиязычности
не указано документация
Meta-Llama-3.2-1B-Instruct Текст (ультралёгкая) не указано Мини-модель для крайних ограничений по ресурсам.
  • Ориентирована на мобильные/edge-сценарии
  • Лицензия Meta Llama 3
не указано документация
Meta-Llama-3.3-70B-Instruct Текст (открытые веса) не указано Актуальное 70B-поколение (3.3).
  • См. «Downloads / Llama 3.3»
  • Коммерческое использование — по лицензии
не указано страница

Ключевые особенности

  • Открытые веса: загрузки и документация на llama.meta.com
  • Текстовые и мультимодальные (Vision) варианты (Llama 3.2)
  • Поддержка локального, edge и облачного развёртывания («Llama Everywhere»)
  • Llama API (превью) и Llama Stack как продукты экосистемы
  • Официальные гайды по fine-tuning, quantization, интеграциям

Рекомендации по применению

  • Llama 3.1 (405B/70B) — универсальные ассистенты, кодинг, многоязычные сценарии
  • Llama 3.2 Vision (11B/90B) — восприятие изображений, визуальные рассуждения, on-device/edge
  • Llama 3.2 (1B/3B) — низкая латентность и экономия ресурсов

Ограничения и риски

  • Официальное API и прайсинг от Meta не опубликованы (Llama API — превью)
  • Часть блог-страниц требует авторизации; детали уточняйте в карточках моделей
  • Лицензионные требования Meta Llama распространяются на использование и брендирование

Сравнение цен

Чат (подписка)

Провайдер План / уровень Цена (как в оф. источнике) Ссылка
OpenAI ChatGPT Plus $20 / месяц прайсинг
Anthropic Claude Pro $20 / месяц (или $17/мес при годовой оплате) прайсинг
Google Google AI Pro $19.99 / месяц прайсинг
Mistral Le Chat Pro €19 / месяц прайсинг

API (модели)

Провайдер Модель / ID in (hit), $/1M out, $/1M Ссылка
Meta Llama (открытые веса) официально
OpenAI gpt-5 $1.25 $10.00 прайсинг
OpenAI gpt-4o-mini $0.15 $0.60 прайсинг
Anthropic claude-sonnet-4 $0.30 $15.00 прайсинг
Google gemini-2.5-pro $10.00 (≤200k) / $15.00 (>200k) прайсинг
xAI grok-4 $0.75 (cached) $15.00 прайсинг
Mistral devstral-medium-2507 $2.00 прайсинг

Бенчмарки (официальные)

Провайдер Модель / ID GPQA (Diamond) MMLU MMLU Pro DROP (F1) HumanEval (pass@1) Источник
Meta Llama 3.1 405B Instruct 50.7% 87.3% 73.3% 84.8% 89.0% официально
Meta Llama 3.1 70B Instruct 41.7% 83.6% 66.4% 79.6% 80.5% официально
OpenAI GPT-5 85.7% 92.5% не указано не указано 93.4% официально
OpenAI GPT-4.1 66.3% 90.2% не указано не указано не указано официально
OpenAI GPT-4o mini 40.2% 82.0% не указано 79.7% 87.2% официально
Google Gemini 2.5 Pro 83.0% не указано не указано не указано не указано официально
Google Gemini 2.5 Flash 82.8% не указано не указано не указано не указано официально
xAI Grok-4 Heavy 88.4% не указано не указано не указано не указано официально
xAI Grok-4 87.5% не указано не указано не указано не указано официально
xAI Grok 3 84.6% не указано не указано не указано не указано официально
Anthropic Claude 3.5 Sonnet 67.2% 90.4% 77.6% 87.1% 93.7% официально
DeepSeek DeepSeek-R1-0528 81.0% не указано 85.0% не указано не указано официально
DeepSeek DeepSeek-V3 59.1% 88.5% 75.9% 91.6% не указано официально
Meta Llama 3.3 70B Instruct 33.3% не указано не указано не указано не указано официально
Alibaba Qwen2.5 72B Instruct 49.0% не указано 71.1% не указано 86.6% официально
Alibaba Qwen2.5 32B Instruct 49.5% 83.3% 69.0% не указано 88.4% официально
Mistral Devstral Medium не указано не указано не указано не указано не указано официально
AI21 Jamba 1.5 Large 36.9% 81.2% 53.5% не указано не указано официально
Microsoft Phi 4 56.1% 84.8% 70.4% 75.5% 82.6% официально

*Meta — признана в России экстремистской организацией, ее деятельность запрещена

Новости

LLM-судьи оказались ненадежными оценщиками качества ответов

Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.

Французы предпочитают учиться с ИИ, а не автоматизировать задачи

Исследование 175000 диалогов с ИИ показывает: французы используют AI как партнера для обучения, а не просто инструмент автоматизации. Технические и образовательные запросы доминируют.

DeepSpeed ZenFlow устраняет простои GPU при обучении больших языковых моделей

DeepSpeed ZenFlow решает проблему простоя GPU при оффлоадинге, обеспечивая до 5x ускорение обучения больших языковых моделей без потери точности.

Метод Magpie адаптирован для синтеза речевых данных в TTS-моделях на основе LLM

Метод синтеза данных Magpie адаптирован для создания речевых датасетов TTS-моделей, что позволяет генерировать 125k образцов без человеческого участия.

Nscale запускает сервис дообучения языковых моделей для специализированных задач

Nscale запустила сервис дообучения языковых моделей для бизнес-задач. Технология позволяет адаптировать общие LLM под специфические домены с помощью контролируемого обучения.

Эмпатичные языковые модели чаще распространяют ложную информацию, выяснили в Оксфорде

Оксфордское исследование показало: LLM с «тёплым» тоном голоса на 10-30% чаще распространяют ложную информацию и теории заговора. Эффект особенно выражен при эмоциональных запросах.