Оглавление

Грандиозные обещания искусственного интеллекта часто рушатся не на переднем крае возможностей, а в рутинных окопах надежности. Как сообщает StartupHub, Кайл Корбитт, сооснователь и CEO компании OpenPipe, недавно приобретенной CoreWeave, раскрыл эту критическую проблему в откровенном обсуждении на подкасте Latent Space.

Проблема прототипирования

Корбитт, ранее руководивший Startup School в Y Combinator, утверждает, что ошеломляющие 90% проектов ИИ остаются в ловушке прототипирования — не потому что модели недостаточно умны, а потому что им не хватает стабильной надежности, необходимой для реального развертывания.

OpenPipe изначально фокусировалась на дистилляции дорогих рабочих процессов GPT-4 в более мелкие и дешевые модели. Этот подход показал значительные результаты — компания достигла $1 млн годового дохода всего за восемь месяцев после запуска продукта.

Смена бизнес-модели

Однако быстрое удешевление передовых моделей быстро разрушило эту бизнес-модель. Как отметил Корбитт: «GPT-4 был безумно дорогим… но была возможность дистиллировать конкретные рабочие процессы… в гораздо меньшие и дешевые модели». Постоянное снижение стоимости токенов от крупных провайдеров сделало экономический аргумент для дистилляции все менее убедительным.

Этот рыночный сдвиг подтолкнул OpenPipe к более фундаментальной проблеме: присущей ненадежности ИИ-агентов в динамичных, непредсказуемых средах.

Решение через обучение с подкреплением

Решение, по мнению Корбитта, лежит в обучении с подкреплением в сочетании с непрерывным обучением на основе реального опыта. Для того чтобы агенты действительно работали надежно, они должны постоянно адаптироваться и улучшаться на основе взаимодействий в живых производственных системах.

Ключевым прорывом в этой области стал подход RULER (Relative Universal Reinforcement Learning Elicited Rewards), который обходит сложную разработку систем вознаграждений, традиционно связанную с RL. Вместо присвоения абсолютных оценок, большие языковые модели используются в качестве судей для относительного ранжирования поведения агентов.

Вот так мы научили модели генерировать код, писать стихи и решать сложные математические задачи, но не можем заставить их стабильно работать в продакшене. Проблема не в интеллекте, а в предсказуемости — как с гениальным, но абсолютно неадекватным сотрудником, который то выдает гениальные идеи, то забывает, как включить компьютер.

Практические сложности развертывания

Корбитт отметил, что реальная проблема часто заключается не в обучении ИИ, а в «создании песочниц для реальных систем со всеми их багами и краевыми случаями». Построение реалистичных и полностью воспроизводимых обучающих сред, особенно для сложных интерактивных агентов, представляет собой монументальную задачу.

Он выделил внутреннюю сложность алгоритмов вроде GRPO, которые, несмотря на теоретические преимущества, могут оказаться «тупиковым путем» из-за их строгих требований к идеально воспроизводимым параллельным прогонам — почти невозможным во многих реальных сценариях.

Оценка других подходов

Интересно, что Корбитт также поделился оценками других стратегий оптимизации ИИ:

  • LoRAs (Low-Rank Adaptation): «недооценены для производственных развертываний» благодаря эффективности во время вывода
  • JAPA и оптимизация промптов: «не оправдали ожиданий» в практическом тестировании его команды

Поглощение OpenPipe компанией CoreWeave и запуск их сервер-less платформы для обучения с подкреплением подчеркивают общее видение будущего ИИ. Конечная цель — парадигма, где каждый развернутый агент непрерывно обучается на основе производственного опыта, постоянно улучшая свою надежность.

Корбитт предсказывает, что решение проблемы надежности через непрерывное RL может открыть «в 10 раз больше спроса на ИИ-вычисления» от проектов, которые в настоящее время застряли в разработке, фундаментально изменив подход предприятий к развертыванию и поддержке ИИ-агентов.