GPT-5.2 решает научные задачи на уровне выпускников вузов

GPT-5.2 демонстрирует рекордные результаты в научных тестах и решает реальные исследовательские задачи в статистике и математике.

Оглавление

Рекордные показатели в тестах
Практическое применение в статистике
Новая модель научного сотрудничества

Новая версия языковой модели от OpenAI демонстрирует впечатляющие результаты в точных науках. GPT-5.2 Pro и GPT-5.2 Thinking стали самыми мощными моделями компании для математических и научных работ, показывая значительный прогресс в области логического мышления и абстракции.

Рекордные показатели в тестах

На бенчмарке GPQA Diamond, который включает вопросы уровня выпускников вузов по физике, химии и биологии, GPT-5.2 Pro достиг 93,2%, а GPT-5.2 Thinking — 92,4%. В тесте FrontierMath, оценивающем экспертный уровень математики, GPT-5.2 Thinking установил новый рекорд, решив 40,3% задач.

Цифры выглядят солидно, но настоящий прорыв — в изменении подхода к научным исследованиям. Модель уже не просто заполняет пробелы в доказательствах, а самостоятельно решает открытые проблемы, что меняет саму парадигму взаимодействия человека и ИИ в науке.

Практическое применение в статистике

В исследовательской работе «О монотонности кривых обучения для оценок максимального правдоподобия» GPT-5.2 Pro помогла решить открытую проблему в теории статистического обучения. Вопрос о том, всегда ли больше данных означает лучшие результаты, долгое время оставался без ответа в базовом случае нормального распределения.

Особенность этого случая в том, что исследователи не предоставляли модели промежуточных аргументов или структуры доказательства — они напрямую попросили решить проблему, а затем тщательно проверили результат.

Новая модель научного сотрудничества

Результаты указывают на формирование нового подхода к использованию ИИ в исследованиях, особенно в областях с аксиоматическими теоретическими основами. Роль человека смещается от создания математического каркаса к верификации и интерпретации.

Ключевые аспекты работы с продвинутыми моделями:

Модели исследуют доказательства и проверяют гипотезы
Экспертная проверка остается обязательной
Человеческое суждение сохраняет центральную роль

Иронично, что системы, способные решать сложные математические проблемы, по-прежнему требуют человеческого контроля за их корректностью. Научный скептицизм оказался последним бастионом, не сдающимся искусственному интеллекту.

По материалам OpenAI

Новости

Новая модель GPT-5.2 решает научные задачи на уровне выпускников вузов

Рекордные показатели в тестах

Практическое применение в статистике

Новая модель научного сотрудничества

Еще интереснее

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

OpenAI представила GPT-5.3 Instant с меньшим числом галлюцинаций и естественным диалогом

Оставить комментарий