LLM-судьи оказались ненадежными оценщиками качества ответов
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
Meta* развивает семейство открытых моделей Llama (3.x/4), распространяет веса и документацию на официальном портале Llama и поддерживает развёртывание через партнёров и собственные продукты (Llama API — превью, Llama Stack). Линейка включает текстовые (Llama 3.1, 3.3) и мультимодальные (Llama 3.2 Vision) варианты, ориентированные на локальный и облачный inference.
ID (для API) | Тип / режим | Контекст | Кратко | Поддержка / ограничения | Цены ($/1M) | Документация |
---|---|---|---|---|---|---|
Meta-Llama-3.1-405B-Instruct | Текст (открытые веса) | не указано | Крупная универсальная модель семейства 3.1. |
|
не указано | документация |
Meta-Llama-3.1-70B-Instruct | Текст (открытые веса) | не указано | Сбалансированная модель 70B. |
|
не указано | документация |
Meta-Llama-3.2-90B-Vision-Instruct | Текст+изображения | не указано | Мультимодальная (vision) модель среднего размера. |
|
не указано | документация |
Meta-Llama-3.2-11B-Vision-Instruct | Текст+изображения | не указано | Лёгкая мультимодальная (vision) модель. |
|
не указано | документация |
Meta-Llama-3.2-3B-Instruct | Текст (лёгкая) | не указано | Лёгкая текстовая 3B для низкой латентности. |
|
не указано | документация |
Meta-Llama-3.2-1B-Instruct | Текст (ультралёгкая) | не указано | Мини-модель для крайних ограничений по ресурсам. |
|
не указано | документация |
Meta-Llama-3.3-70B-Instruct | Текст (открытые веса) | не указано | Актуальное 70B-поколение (3.3). |
|
не указано | страница |
Провайдер | План / уровень | Цена (как в оф. источнике) | Ссылка |
---|---|---|---|
OpenAI | ChatGPT Plus | $20 / месяц | прайсинг |
Anthropic | Claude Pro | $20 / месяц (или $17/мес при годовой оплате) | прайсинг |
Google AI Pro | $19.99 / месяц | прайсинг | |
Mistral | Le Chat Pro | €19 / месяц | прайсинг |
Провайдер | Модель / ID | in (hit), $/1M | out, $/1M | Ссылка |
---|---|---|---|---|
Meta | Llama (открытые веса) |
— | — | официально |
OpenAI | gpt-5 |
$1.25 | $10.00 | прайсинг |
OpenAI | gpt-4o-mini |
$0.15 | $0.60 | прайсинг |
Anthropic | claude-sonnet-4 |
$0.30 | $15.00 | прайсинг |
gemini-2.5-pro |
— | $10.00 (≤200k) / $15.00 (>200k) | прайсинг | |
xAI | grok-4 |
$0.75 (cached) | $15.00 | прайсинг |
Mistral | devstral-medium-2507 |
— | $2.00 | прайсинг |
Провайдер | Модель / ID | GPQA (Diamond) | MMLU | MMLU Pro | DROP (F1) | HumanEval (pass@1) | Источник |
---|---|---|---|---|---|---|---|
Meta | Llama 3.1 405B Instruct | 50.7% | 87.3% | 73.3% | 84.8% | 89.0% | официально |
Meta | Llama 3.1 70B Instruct | 41.7% | 83.6% | 66.4% | 79.6% | 80.5% | официально |
OpenAI | GPT-5 | 85.7% | 92.5% | не указано | не указано | 93.4% | официально |
OpenAI | GPT-4.1 | 66.3% | 90.2% | не указано | не указано | не указано | официально |
OpenAI | GPT-4o mini | 40.2% | 82.0% | не указано | 79.7% | 87.2% | официально |
Gemini 2.5 Pro | 83.0% | не указано | не указано | не указано | не указано | официально | |
Gemini 2.5 Flash | 82.8% | не указано | не указано | не указано | не указано | официально | |
xAI | Grok-4 Heavy | 88.4% | не указано | не указано | не указано | не указано | официально |
xAI | Grok-4 | 87.5% | не указано | не указано | не указано | не указано | официально |
xAI | Grok 3 | 84.6% | не указано | не указано | не указано | не указано | официально |
Anthropic | Claude 3.5 Sonnet | 67.2% | 90.4% | 77.6% | 87.1% | 93.7% | официально |
DeepSeek | DeepSeek-R1-0528 | 81.0% | не указано | 85.0% | не указано | не указано | официально |
DeepSeek | DeepSeek-V3 | 59.1% | 88.5% | 75.9% | 91.6% | не указано | официально |
Meta | Llama 3.3 70B Instruct | 33.3% | не указано | не указано | не указано | не указано | официально |
Alibaba | Qwen2.5 72B Instruct | 49.0% | не указано | 71.1% | не указано | 86.6% | официально |
Alibaba | Qwen2.5 32B Instruct | 49.5% | 83.3% | 69.0% | не указано | 88.4% | официально |
Mistral | Devstral Medium | не указано | не указано | не указано | не указано | не указано | официально |
AI21 | Jamba 1.5 Large | 36.9% | 81.2% | 53.5% | не указано | не указано | официально |
Microsoft | Phi 4 | 56.1% | 84.8% | 70.4% | 75.5% | 82.6% | официально |
*Meta — признана в России экстремистской организацией, ее деятельность запрещена
Исследование показало, что LLM-судьи часто ошибаются в оценке ответов, награждая уверенные, но неверные ответы, что искажает результаты тестирования на 10-20%.
Исследование 175000 диалогов с ИИ показывает: французы используют AI как партнера для обучения, а не просто инструмент автоматизации. Технические и образовательные запросы доминируют.
DeepSpeed ZenFlow решает проблему простоя GPU при оффлоадинге, обеспечивая до 5x ускорение обучения больших языковых моделей без потери точности.
Метод синтеза данных Magpie адаптирован для создания речевых датасетов TTS-моделей, что позволяет генерировать 125k образцов без человеческого участия.
Nscale запустила сервис дообучения языковых моделей для бизнес-задач. Технология позволяет адаптировать общие LLM под специфические домены с помощью контролируемого обучения.
Оксфордское исследование показало: LLM с «тёплым» тоном голоса на 10-30% чаще распространяют ложную информацию и теории заговора. Эффект особенно выражен при эмоциональных запросах.