Бенчмарк SOOHAK: почему ИИ ошибается в высшей математике

Новый математический бенчмарк SOOHAK выявил неспособность ведущих ИИ-моделей распознавать некорректные условия задач и их низкую эффективность в высшей математике.

Оглавление

Граница между олимпиадой и научным поиском
Проблема ложной уверенности

Современные большие языковые модели научились щелкать олимпиадные задачи как орехи, но столкновение с настоящей наукой все еще вызывает у них когнитивный диссонанс. Как сообщает The Decoder, международный консорциум из 64 математиков представил бенчмарк SOOHAK, который обнаружил критическую уязвимость: нейросети готовы часами искать решение там, где его физически не существует.

Разработчики из Университета Карнеги-Меллона и других ведущих институтов подготовили 439 задач, разделенных на два лагеря. Первый — это «вызов» исследовательского уровня, а второй — проверка на внимательность, состоящая из заведомо некорректных условий. Любопытно, что авторы теста исключили любые заимствования из учебников, создав контент с нуля, чтобы исключить простое зазубривание тренировочных данных.

Граница между олимпиадой и научным поиском

Результаты тестирования показывают, что магия ИИ начинает тускнеть, как только задачи выходят за рамки школьных соревнований. Лидером в основной дисциплине стала Gemini 3 Pro от Google, набравшая 30%, в то время как GPT-5 показала результат в 26%. Модели с открытыми весами, такие как Qwen3-235B, едва преодолели порог в 15%, что подчеркивает их слабую адаптацию к неопубликованным научным материалам.

Интересно наблюдать за тем, как распределились роли в контрольной группе людей. Исследователи с докторскими степенями (PhD) справились с тестом хуже, чем медалисты математических олимпиад. Вероятно, формат четырехчасового марафона поощряет навык быстрого нахождения изящных путей, а не глубокое академическое погружение, что делает SOOHAK скорее проверкой соревновательного интеллекта.

Проблема ложной уверенности

Наибольший интерес представляет набор задач «Refusal», где решение невозможно из-за противоречий в условиях. Здесь ИИ проявляет пугающую самоуверенность: вместо того чтобы указать на ошибку в условии, модели начинают «галлюцинировать» ответ. Ни одна из систем не смогла преодолеть отметку в 50% точности в этом сегменте, причем увеличение вычислительных мощностей почти не помогает распознавать подвох.

Способность ИИ к сложным вычислениям растет экспоненциально, но его «здравый смысл» остается в зачаточном состоянии. Мы видим триумф чистой вычислительной логики над пониманием сути: модель скорее придумает новую математическую константу, чем признает, что условие задачи абсурдно. Это не просто баг, а фундаментальный дефект архитектуры, где стремление дать ответ превалирует над критическим анализом. Пока мы не научим нейросети говорить «я не знаю», их участие в реальных научных открытиях будет напоминать лотерею с очень дорогими билетами.

Авторы исследования отмечают, что текущий формат бенчмарка, требующий числового ответа, все еще слишком тесен для высшей математики. В будущем планируется внедрение систем проверки доказательств и экспертных панелей. Пока же набор данных SOOHAK будет закрыт до конца 2026 года, чтобы предотвратить попадание задач в обучающие выборки новых моделей.

Несмотря на отдельные успехи, вроде решения задач Эрдёша моделями GPT-5.2 Pro, системный успех ИИ в науке остается под вопросом. По мнению экспертов, реальный процент удачных решений в неструктурированных исследовательских задачах едва достигает пары процентов. И новый бенчмарк лишь подтверждает: путь от имитации интеллекта к настоящему научному мышлению гораздо длиннее, чем кажется после очередного пресс-релиза.

Новости

Новый бенчмарк SOOHAK может выявлять склонность ИИ к уверенным галлюцинациям

Граница между олимпиадой и научным поиском

Проблема ложной уверенности

Еще интереснее

Внутренний монолог Claude стал доступен для чтения благодаря методу J-Lens

Главным барьером для ИИ становится архитектурный тупик, считает глава CEA-Leti

Исследование: после появления ИИ оценки студентов стали выше, но только за домашние задания

OpenAI представила бенчмарк LifeSciBench для оценки ИИ в области наук о жизни

Оставить комментарий