90% проектов ИИ застревают на стадии прототипа

90% проектов ИИ не выходят за рамки прототипа из-за проблем с надежностью. CEO OpenPipe объясняет, как обучение с подкреплением может решить эту проблему.

Оглавление

Проблема прототипирования
Смена бизнес-модели
Решение через обучение с подкреплением
Практические сложности развертывания
Оценка других подходов

Грандиозные обещания искусственного интеллекта часто рушатся не на переднем крае возможностей, а в рутинных окопах надежности. Как сообщает StartupHub, Кайл Корбитт, сооснователь и CEO компании OpenPipe, недавно приобретенной CoreWeave, раскрыл эту критическую проблему в откровенном обсуждении на подкасте Latent Space.

Проблема прототипирования

Корбитт, ранее руководивший Startup School в Y Combinator, утверждает, что ошеломляющие 90% проектов ИИ остаются в ловушке прототипирования — не потому что модели недостаточно умны, а потому что им не хватает стабильной надежности, необходимой для реального развертывания.

OpenPipe изначально фокусировалась на дистилляции дорогих рабочих процессов GPT-4 в более мелкие и дешевые модели. Этот подход показал значительные результаты — компания достигла $1 млн годового дохода всего за восемь месяцев после запуска продукта.

Смена бизнес-модели

Однако быстрое удешевление передовых моделей быстро разрушило эту бизнес-модель. Как отметил Корбитт: «GPT-4 был безумно дорогим… но была возможность дистиллировать конкретные рабочие процессы… в гораздо меньшие и дешевые модели». Постоянное снижение стоимости токенов от крупных провайдеров сделало экономический аргумент для дистилляции все менее убедительным.

Этот рыночный сдвиг подтолкнул OpenPipe к более фундаментальной проблеме: присущей ненадежности ИИ-агентов в динамичных, непредсказуемых средах.

Решение через обучение с подкреплением

Решение, по мнению Корбитта, лежит в обучении с подкреплением в сочетании с непрерывным обучением на основе реального опыта. Для того чтобы агенты действительно работали надежно, они должны постоянно адаптироваться и улучшаться на основе взаимодействий в живых производственных системах.

Ключевым прорывом в этой области стал подход RULER (Relative Universal Reinforcement Learning Elicited Rewards), который обходит сложную разработку систем вознаграждений, традиционно связанную с RL. Вместо присвоения абсолютных оценок, большие языковые модели используются в качестве судей для относительного ранжирования поведения агентов.

Вот так мы научили модели генерировать код, писать стихи и решать сложные математические задачи, но не можем заставить их стабильно работать в продакшене. Проблема не в интеллекте, а в предсказуемости — как с гениальным, но абсолютно неадекватным сотрудником, который то выдает гениальные идеи, то забывает, как включить компьютер.

Практические сложности развертывания

Корбитт отметил, что реальная проблема часто заключается не в обучении ИИ, а в «создании песочниц для реальных систем со всеми их багами и краевыми случаями». Построение реалистичных и полностью воспроизводимых обучающих сред, особенно для сложных интерактивных агентов, представляет собой монументальную задачу.

Он выделил внутреннюю сложность алгоритмов вроде GRPO, которые, несмотря на теоретические преимущества, могут оказаться «тупиковым путем» из-за их строгих требований к идеально воспроизводимым параллельным прогонам — почти невозможным во многих реальных сценариях.

Оценка других подходов

Интересно, что Корбитт также поделился оценками других стратегий оптимизации ИИ:

LoRAs (Low-Rank Adaptation): «недооценены для производственных развертываний» благодаря эффективности во время вывода
JAPA и оптимизация промптов: «не оправдали ожиданий» в практическом тестировании его команды

Поглощение OpenPipe компанией CoreWeave и запуск их сервер-less платформы для обучения с подкреплением подчеркивают общее видение будущего ИИ. Конечная цель — парадигма, где каждый развернутый агент непрерывно обучается на основе производственного опыта, постоянно улучшая свою надежность.

Корбитт предсказывает, что решение проблемы надежности через непрерывное RL может открыть «в 10 раз больше спроса на ИИ-вычисления» от проектов, которые в настоящее время застряли в разработке, фундаментально изменив подход предприятий к развертыванию и поддержке ИИ-агентов.

Новости

90% проектов в ИИ застревают на стадии прототипа из-за проблем с надежностью

Проблема прототипирования

Смена бизнес-модели

Решение через обучение с подкреплением

Практические сложности развертывания

Оценка других подходов

Еще интереснее

Together AI запускает акселератор для AI-стартапов с поддержкой до 50 тысяч долларов

Как объяснять финансовые прогнозы, комбинируя методы GRPO и RAG

Инвестиционная экспансия Nvidia в ИИ-стартапы достигла рекордных масштабов

AlphaSense запускает платформу Financial Data для объединения чисел и контекста

Оставить комментарий