Оглавление
Новый бенчмарк от исследовательской компании Artificial Analysis впервые системно оценивает способность языковых моделей отличать факты от вымысла. Индекс AA-Omniscience измеряет как фактическую точность, так и калибровку знаний по 6000 вопросов из 42 экономически значимых тем в шести областях: бизнес, гуманитарные и социальные науки, здоровье, право, разработка программного обеспечения, а также наука, инженерия и математика.
В отличие от традиционных бенчмарков, которые поощряют угадывание, AA-Omniscience вводит новый показатель — Индекс Всеведения, который варьируется от -100 до 100. Индекс штрафует за неверные ответы и поощряет модели за воздержание при неуверенности, где оценка 0 представляет модель, которая отвечает правильно так же часто, как и неправильно.
Вызов галлюцинаций
Результаты рисуют трезвую картину текущих возможностей ИИ. Только три модели смогли достичь положительного значения Индекса Всеведения, при этом Claude 4.1 Opus лидирует с показателем 4,8. Это означает, что подавляющее большинство оцениваемых моделей — включая многие системы «фронтирного» уровня — производят неверные ответы чаще, чем правильные, если учитывать галлюцинации. GPT-5.1 и Grok 4 заняли следующие две позиции.
Высокие показатели галлюцинаций оказались доминирующим фактором, приводящим к низким оценкам. Например, хотя Grok 4 и GPT-5 (high) показали самую высокую точность на уровне 39%, их показатели галлюцинаций в 64% и 81% соответственно привели к существенным штрафам в Индексе Всеведения.
В резком контрасте, Claude 4.1 Opus достиг 36% точности наряду с одним из самых низких показателей галлюцинаций, что принесло ему высший общий балл благодаря лучшей калибровке. Claude 4.5 Haiku продемонстрировал сходную сдержанность, достигнув всего 16% точности, но сохранив заметно низкий 26% показатель галлюцинаций.
Лидеры по ключевым метрикам
- Точность (сырые знания): Grok 4 и GPT-5 (high) разделили первое место по самой высокой точности на уровне 39%, с Claude 4.1 Opus близко следом на 36%.
- Показатель галлюцинаций (надежность): Модели Anthropic доминировали в этой критически важной метрике, причем Claude 4.1 Opus и Claude 4.5 Haiku продемонстрировали исключительную калибровку — знание, когда следует воздержаться, а не угадывать неправильно.
- Производительность по доменам: Ни одна модель последовательно не доминировала во всех шести областях. Claude 4.1 Opus лидировал в праве, разработке программного обеспечения и гуманитарных и социальных науках; GPT-5.1 достиг наивысшей надежности по бизнес-вопросам; а Grok 4 показал лучшие результаты в здравоохранении, а также в науке, инженерии и математике.
Интеллект не равен надежности
Возможно, самое удивительное открытие исследования заключается в том, что общий интеллект не надежно предсказывает сильные встроенные знания или низкие показатели галлюцинаций. При сравнении с Индексом Интеллекта Artificial Analysis, который измеряет общие возможности по таким задачам, как кодирование и рассуждение, несколько высокопроизводительных моделей показали плохую фактическую надежность.
Модели типа Minimax M2 и gpt-oss-120b (high) достигли сильных оценок по Индексу Интеллекта, однако их повышенные показатели галлюцинаций привели к плохой производительности по Индексу Всеведения, что делает их непригодными для приложений, зависящих от фактической точности.
Интересно наблюдать, как рынок начинает сегментироваться: одни модели бьют рекорды по креативности и интеллектуальным задачам, другие — по надежности фактов. Это напоминает классическое разделение между гениями-творцами и педантичными учеными. Для бизнеса, особенно в таких областях, как юриспруденция и медицина, выбор становится очевидным — лучше чуть менее умный, но значительно более надежный ассистент.
Цена надежности
Бенчмарк также выявил четкую положительную связь между производительностью модели и стоимостью, указывая на то, что достижение более высоких уровней фактической надежности часто требует больших затрат. Однако некоторые модели оказались более рентабельными, чем другие.
Claude 4.5 Haiku достиг более высокого Индекса Всеведения, чем несколько значительно более дорогих моделей, включая GPT-5 (high) и Kimi K2 Thinking, что предполагает, что определенные модели предлагают более благоприятную стоимость для задач, связанных с обработкой знаний.
Последствия для корпоративного ИИ
Результаты имеют значительные последствия для организаций, развертывающих системы ИИ в областях, связанных с обработкой знаний. Бенчмарк фокусируется на экономически важных областях, причем шесть оцениваемых доменов в совокупности составляют 44% заработной платы в США в 2024 году.
Оценка затрагивает критический пробел: даже когда модели имеют возможности поиска или использования инструментов, встроенные знания остаются как конкурентными, так и предпосылкой для эффективного использования инструментов, поскольку модели с плохими знаниями борются с пониманием контекста и эффективным поиском.
Методология бенчмарка — использование автоматического агента генерации вопросов, который извлекает вопросы из авторитетных источников — позволяет ему масштабироваться по доменам и непрерывно обновляться с учетом последней информации, обеспечивая его постоянную актуальность по мере эволюции моделей.
Для организаций, выбирающих модели ИИ для развертывания, исследование предполагает, что общие бенчмарки возможностей не рассказывают всей истории. Модели, которые кажутся субоптимальными в общих рейтингах, могут предложить конкурентоспособную или превосходящую надежность в целевых доменах, а модели с сильными общими знаниями не обязательно демонстрируют высокую надежность в каждой конкретной области.
По материалам OfficeChai.
Оставить комментарий