Почему бессмысленно спрашивать у чат-бота о его ошибках
Исследование показывает: запросы к ИИ об их ошибках приводят к ложным ответам. Почему чат-боты не способны к интроспекции и как это влияет на их применение в разработке.
Grok — потребительский продукт и API-платформа xAI; доступ к моделям предоставляется через веб-клиент и программный интерфейс. Линейка включает универсальные и reasoning-модели (Grok-4, Grok-3, Grok-3 Mini) с поддержкой Structured Outputs, Function Calling и Live Search (цитируемые ответы).
| ID (для API) | Тип / режим | Контекст | Кратко | Поддержка / ограничения | Цены ($/1M) | Документация |
|---|---|---|---|---|---|---|
| grok-4-0709 | Reasoning (текст; vision — анонсировано) | 256,000 | Флагманская reasoning-модель; alias: grok-4. |
|
in (hit): $0.75; in (miss): $3.00; out: $15.00 | документация |
| grok-3 | Reasoning / универсальная | 131,072 | Модель общего назначения с поддержкой строгих схем и функций. |
|
in (hit): $0.50; in (miss): $2.00; out: $10.00 | документация |
| grok-3-mini | Reasoning (экономичная) | 131,072 | Упрощённая reasoning-модель; пониженная стоимость и латентность. |
|
in (hit): $0.125; in (miss): $0.50; out: $2.50 | документация |
| Провайдер | План / уровень | Цена (как в оф. источнике) | Ссылка |
|---|---|---|---|
| xAI | Grok (через X Premium+) | не указано на x.ai | страница |
| OpenAI | ChatGPT Plus | $20 / месяц | прайсинг |
| Anthropic | Claude Pro | $20 / месяц (или $17/мес при годовой оплате) | прайсинг |
| Google AI Pro | $19.99 / месяц | прайсинг | |
| Mistral | Mistral Pro (Le Chat) | $14.99 / месяц | прайсинг |
| Провайдер | Модель / ID | in (hit), $/1M | out, $/1M | Ссылка |
|---|---|---|---|---|
| xAI | grok-4-0709 |
$0.75 (cached) / $3.00 (miss) | $15.00 | прайсинг |
| xAI | grok-3-mini |
$0.125 (cached) / $0.50 (miss) | $2.50 | прайсинг |
| OpenAI | gpt-5 |
$1.25 | $10.00 | прайсинг |
| OpenAI | gpt-4o-mini |
$0.15 | $0.60 | прайсинг |
| Anthropic | Claude Opus 4.1 |
$15.00 | $75.00 | прайсинг |
gemini-2.5-pro |
$0.10 | $0.40 | прайсинг | |
| Mistral | devstral-medium-2507 |
$0.40 | $2.00 | прайсинг (см. новость) |
| Провайдер | Модель / ID | GPQA | MMLU | MMLU Pro | DROP | HumanEval | Источник |
|---|---|---|---|---|---|---|---|
| xAI | Grok-4 Heavy | 88.40% | не указано | не указано | не указано | не указано | официально |
| xAI | Grok-3 | 84.60% | не указано | не указано | не указано | не указано | официально |
| OpenAI | GPT-5 | 85.70% | 92.50% | не указано | не указано | 93.40% | официально |
| Gemini 2.5 Pro | 83.00% | не указано | не указано | не указано | не указано | официально | |
| Anthropic | Claude 3.5 Sonnet | 67.20% | 90.40% | 77.60% | 87.10% | 93.70% | официально |
| Anthropic | Claude Sonnet 4 | 75.40% | не указано | не указано | не указано | не указано | официально |
Исследование показывает: запросы к ИИ об их ошибках приводят к ложным ответам. Почему чат-боты не способны к интроспекции и как это влияет на их применение в разработке.
xAI открыл бесплатный доступ к Grok 4, спровоцировав гнев платных подписчиков. Ограничение в 5 запросов/12 часов и сравнение с ChatGPT 5 в разгаре «бесплатной войны» ИИ.
Исследование StopAntisemitism выявило опасную непоследовательность ИИ-моделей в оценке антисемитских нарративов. Grok и Claude демонстрируют уклончивость в вопросах о Израиле, что может легитимизировать ненависть.
Илон Маск угрожает судом Apple за предвзятое ранжирование приложений в App Store, обвиняя компанию в поддержке ChatGPT. Однако его претензии опровергаются фактами и его же практиками в соцсети X.