Оглавление

Исследователи из Принстонского университета представили бенчмарк CEO-Bench, имитирующий управление софтверной компанией в течение 500 дней. Результаты эксперимента, о которых сообщает The Decoder, оказались отрезвляющими: большинство современных агентов на базе LLM обанкротились, не сумев справиться с долгосрочным планированием и шумом в данных.

В то время как ИИ демонстрирует впечатляющие успехи в локальных задачах вроде написания кода или генерации текста, стратегическое мышление остается для него «терра инкогнита». Тест ставит модели в условия, где каждое решение имеет отложенные последствия, а прямая обратная связь отсутствует, что радикально отличается от привычных чат-сессий.

Симулятор NovaMind: 500 дней в кресле директора

Для проверки «интеллекта управления» ученые создали виртуальную компанию NovaMind с начальным капиталом в 1 миллион долларов. Задача агента — не просто отвечать на вопросы, а полноценно оперировать бизнесом через Python API, используя 34 инструмента и обращаясь к базе данных из 19 таблиц. Модели приходится самостоятельно писать SQL-запросы и выстраивать рабочие процессы.

Сложность среды заключается в реалистичных задержках: инвестиции в R&D приносят плоды через недели, а ошибки в ценообразовании проявляются в виде оттока клиентов лишь спустя время. Агенту необходимо анализировать 26 потребительских сегментов, следить за конкурентами в имитируемой социальной сети и адаптироваться к меняющимся рыночным циклам.

Из четырнадцати протестированных систем лишь три смогли завершить цикл, сохранив или приумножив стартовый капитал. Лидерами стали Claude Fable 5 с результатом 47,15 млн долларов, Claude Opus 4.8 (27,8 млн) и GPT-5.5 (21,3 млн). Примечательно, что GPT-5.5 обанкротилась в двух из трех попыток, что указывает на высокую волатильность принимаемых решений.

Способность моделей генерировать синтаксически верный код не конвертируется в деловую хватку. Мы видим классическую ловушку локальной оптимизации: агент безупречно выполняет транзакцию, но полностью игнорирует кассовый разрыв через три квартала. Без фундаментального понимания причинно-следственных связей в экономике ИИ-директор остается лишь продвинутым калькулятором, который уверенно ведет корабль на скалы, если это прописано в текущем токене.

Стратегия против алгоритмов

Особый интерес вызывает сравнение нейросетей с простым алгоритмом на базе жестких правил. Эта эвристическая модель, не использующая ИИ, показала результат в 15,76 млн долларов. Она обошла почти все современные LLM, просто придерживаясь консервативной тактики: фиксированные цены, целевая реклама и корректировка мощностей по факту использования.

Анализ поведения показал, что успех зависел от готовности к исследованиям. Пока Claude Opus 4.7 пыталась экономить и выживать, более продвинутая Opus 4.8 строила внутренние симуляции для прогнозирования денежных потоков. GPT-5.5, в свою очередь, анализировала историю переговоров, чтобы выявить скрытые предпочтения клиентов, что свидетельствует о зачатках глубокой аналитики.

Исследователи выделили четыре критических навыка, коррелирующих с успехом в CEO-Bench:

  • Поиск скрытой информации в зашумленных данных;
  • Прогнозирование будущих показателей (точность денежного прогноза на 4 недели);
  • Скорость адаптации к действиям конкурентов;
  • Долгосрочное планирование через сценарии «если-то».

Несмотря на проблески интеллекта, даже лучшие агенты достигли лишь малой доли от теоретически возможной прибыли в 2,2 млрд долларов. Окружение также играет роль: использование стандартных сред вроде Claude Code или Codex ухудшало результаты. Вероятно, системные промпты, оптимизированные для разработки ПО, мешают моделям проявлять гибкость, необходимую для управления бизнесом.