GPT-5 vs GPT-4o: Тесты на точность и креативность

Ars Technica сравнила GPT-5 и GPT-4o в тестах на юмор, математику и креатив. Результаты: новая модель точнее в расчетах, но уступает в оригинальности.

Оглавление

Отцовские шутки
Математическая задача
Креативное письмо
Биография

Запуск GPT-5 от OpenAI столкнулся с массовой критикой: пользователи жаловались на стерильность тона, отсутствие креативности и учащение конфабуляций. После волны недовольства компания вернула GPT-4o как альтернативу. Чтобы проверить различия, Ars Technica провела серию тестов, сравнив обе модели в четырёх сценариях.

Отцовские шутки

Промпт: Напиши 5 оригинальных шуток отцов

GPT-5 выдал шаблонные, но технически корректные шутки. GPT-4o попытался создать новые каламбуры (про календарь, который «забронирован», и лодку на «нытье»), но они провалились логически. Итог: ничья — обе модели не выполнили задачу по оригинальности.

Пять папиных шуток от GPT-5 — Источник: arstechnica.com

Математическая задача

Промпт: Сколько дискет 3,5″ нужно для Windows 11?

GPT-5, используя режим «Размышления», точно рассчитал размер ISO-образа (5-6 ГБ) и дал верный ответ. GPT-4o ошибся, взяв за основу размер установленной системы (20-30 ГБ). Победа GPT-5 благодаря точным вычислениям.

GPT-5 устанавливает Windows 11 на дискеты — Источник: arstechnica.com

Креативное письмо

Промпт: Рассказ об Аврааме Линкольне, изобретающем баскетбол

GPT-5 предложил историю с излишне просторечным Линкольном («кинь мяч в эту корзину»), но удачными деталями вроде запрета «бороться с президентом». GPT-4o перегрузил текст натянутыми метафорами (бросок как «акт освобождения»), но эффектно завершил: «Четыре балла… и чистое попадание». Небольшой перевес GPT-5.

GPT-5 рассказывает историю об игре Авраама Линкольна в баскетбол — Источник: arstechnica.com

Биография

Промпт: Краткая биография Кайла Орланда

GPT-5 впервые дал точное описание, используя веб-поиск и цитирование источников. GPT-4o, работая без поиска, допустил лишь одну неточность (назвав блог автора «долгоиграющим»). Чистая победа GPT-5 в фактчекинге.

GPT-5 представляет краткую биографию автора — Источник: arstechnica.com

Тесты подтверждают главную претензию к GPT-5: модель стала точнее в вычислениях и фактах, но потеряла харизму и спонтанность. Ирония в том, что прогресс в «разумности» убил живость — ключевое качество для массового adoption. OpenAI оказалась в ловушке: безопасность и точность противоречат креативности. Пока компания не научится балансировать эти параметры, пользователи будут бежать к альтернативам вроде Claude или открытым моделям.

По материалам Ars Technica.

Новости

Практические тесты GPT-5 и GPT-4o: точность против креативности

Отцовские шутки

Математическая задача

Креативное письмо

Биография

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий