GPT-5 OpenAI: экономия вместо прорыва, анализ архитектуры

Анализ GPT-5: архитектурные изменения и ограничения контекста продиктованы экономией. Реакция пользователей на удаление GPT-4o и тактика Алтмана.

Оглавление

Роутинг вместо революции
Цена «интеллекта»
Устаревание моделей и бунт пользователей
Контекстное окно: экономия на памяти
Тактическое отступление Альтмана

По сообщению The Register, за громкими заявлениями о GPT-5 скрывается не технологический прорыв, а стратегия сокращения издержек — что уже вызвало недовольство у лояльных пользователей.

Роутинг вместо революции

Вопреки ожиданиям, GPT-5 — не единая модель. Это набор из лёгкой LLM для простых запросов и ресурсоёмкой — для сложных задач. Распределением занимается роутер, работающий как интеллектуальный балансировщик нагрузки. Для изображений используется отдельная Image Gen 4o.

Новый подход отменяет возможность выбора модели у пользователей Plus/Pro. Теперь роутер направляет большинство запросов к экономичным моделям, снижая затраты на вычисления. Ещё один инструмент оптимизации — автоматическое отключение «глубоких размышлений» для бесплатных пользователей: меньше токенов — ниже расходы.

Цена «интеллекта»

Несмотря на заявленное снижение галлюцинаций на 80%, тесты показывают скромный прирост качества. Основные улучшения — в вызове инструментов и детоксикации ответов.

Тесты производительности GPT-5: улучшение результатов в математических тестах AIME 2025

Критично и качество роутинга: в день запуска система давала сбои, из-за чего GPT-5 казался «глупее». Знаменитый баг с одной «B» в «Blueberry» — следствие этих проблем.

Устаревание моделей и бунт пользователей

OpenAI объявила о прекращении поддержки старых моделей, включая популярный GPT-4o. Решение вызвало волну критики. CEO Сэм Альтман признал ошибку: «Люди привязываются к конкретным ИИ-моделям сильнее, чем к другим технологиям». GPT-4o временно вернули платным подписчикам.

За кулисами — жёсткая экономия. Если GPT-5 использует квантование MXFP4 (как в открытых моделях OpenAI), это сокращает требования к памяти и вычислениям на 75% против BF16. Меньше моделей — больше ресурсов для монетизируемых продуктов.

Контекстное окно: экономия на памяти

OpenAI не стала расширять контекстное окно GPT-5:

Бесплатные пользователи: 8,000 токенов
Plus/Pro: 128,000 токенов

На фоне 200,000 токенов у Claude Pro и 1 миллиона у Google Gemini это выглядит анахронизмом. Причина проста: большой контекст требует дорогой памяти. Через API доступно окно в 400,000 токенов, но заполнение обойдётся в $0.50 за запрос — неприемлемо для массового использования.

Тактическое отступление Альтмана

После волны критики Альтман добавил настройки скорости ответа (Авто/Быстро/Обдумывание) и увеличил лимиты до 3,000 сообщений/неделю. В дорожной карте распределения ресурсов приоритет отдан платным пользователям. Явный сигнал: монетизация важнее академических амбиций.

OpenAI превращается в типичного «корпоративного взрослого»: вместо прорывов — оптимизация unit-экономики. Роутер и квантование — умные решения, но подмена тезиса «революция vs экономика» разочаровывает. Клиенты платят $20/мес не за load balancing, а за качество. Хуже всего стратегия «выпустим сырой продукт, потом починим»: баги вроде «Blueberry» подрывают доверие. Альтман вернул GPT-4o, но это паллиатив. Настоящий тест — сможет ли OpenAI, сокращая costs, не превратить GPT в «усреднённый продукт для масс».

Новости

GPT-5 от OpenA — это не эволюция ИИ, а оптимизация затрат

Роутинг вместо революции

Цена «интеллекта»

Устаревание моделей и бунт пользователей

Контекстное окно: экономия на памяти

Тактическое отступление Альтмана

Еще интереснее

ChatGPT экономит работникам от 40 до 80 минут времени в день, говорится в отчете OpenAI

Новый рейтинг энергоэффективности показал, что рассуждающие LLM требуют в 30 раз больше энергии

Исследовательские ИИ-агенты выдумывают факты, но не признают, что не знают

OpenAI отключила рекомендации в ChatGPT — пользователи принимали их за рекламу

Оставить комментарий