Современные большие языковые модели научились щелкать олимпиадные задачи как орехи, но столкновение с настоящей наукой все еще вызывает у них когнитивный диссонанс. Как сообщает The Decoder, международный консорциум из 64 математиков представил бенчмарк SOOHAK, который обнаружил критическую уязвимость: нейросети готовы часами искать решение там, где его физически не существует.
Разработчики из Университета Карнеги-Меллона и других ведущих институтов подготовили 439 задач, разделенных на два лагеря. Первый — это «вызов» исследовательского уровня, а второй — проверка на внимательность, состоящая из заведомо некорректных условий. Любопытно, что авторы теста исключили любые заимствования из учебников, создав контент с нуля, чтобы исключить простое зазубривание тренировочных данных.
Граница между олимпиадой и научным поиском
Результаты тестирования показывают, что магия ИИ начинает тускнеть, как только задачи выходят за рамки школьных соревнований. Лидером в основной дисциплине стала Gemini 3 Pro от Google, набравшая 30%, в то время как GPT-5 показала результат в 26%. Модели с открытыми весами, такие как Qwen3-235B, едва преодолели порог в 15%, что подчеркивает их слабую адаптацию к неопубликованным научным материалам.
Интересно наблюдать за тем, как распределились роли в контрольной группе людей. Исследователи с докторскими степенями (PhD) справились с тестом хуже, чем медалисты математических олимпиад. Вероятно, формат четырехчасового марафона поощряет навык быстрого нахождения изящных путей, а не глубокое академическое погружение, что делает SOOHAK скорее проверкой соревновательного интеллекта.
Проблема ложной уверенности
Наибольший интерес представляет набор задач «Refusal», где решение невозможно из-за противоречий в условиях. Здесь ИИ проявляет пугающую самоуверенность: вместо того чтобы указать на ошибку в условии, модели начинают «галлюцинировать» ответ. Ни одна из систем не смогла преодолеть отметку в 50% точности в этом сегменте, причем увеличение вычислительных мощностей почти не помогает распознавать подвох.
Способность ИИ к сложным вычислениям растет экспоненциально, но его «здравый смысл» остается в зачаточном состоянии. Мы видим триумф чистой вычислительной логики над пониманием сути: модель скорее придумает новую математическую константу, чем признает, что условие задачи абсурдно. Это не просто баг, а фундаментальный дефект архитектуры, где стремление дать ответ превалирует над критическим анализом. Пока мы не научим нейросети говорить «я не знаю», их участие в реальных научных открытиях будет напоминать лотерею с очень дорогими билетами.
Авторы исследования отмечают, что текущий формат бенчмарка, требующий числового ответа, все еще слишком тесен для высшей математики. В будущем планируется внедрение систем проверки доказательств и экспертных панелей. Пока же набор данных SOOHAK будет закрыт до конца 2026 года, чтобы предотвратить попадание задач в обучающие выборки новых моделей.
Несмотря на отдельные успехи, вроде решения задач Эрдёша моделями GPT-5.2 Pro, системный успех ИИ в науке остается под вопросом. По мнению экспертов, реальный процент удачных решений в неструктурированных исследовательских задачах едва достигает пары процентов. И новый бенчмарк лишь подтверждает: путь от имитации интеллекта к настоящему научному мышлению гораздо длиннее, чем кажется после очередного пресс-релиза.
Оставить комментарий