Оглавление

Пока потребительские ИИ-агенты вроде ChatGPT от OpenAI или Comet от Perplexity демонстрируют ограниченные возможности, индустрия ищет новые подходы к их обучению. Одним из ключевых направлений становятся RL-среды (reinforcement learning environments) — симуляционные рабочие пространства, где агенты могут обучаться многошаговым задачам.

Что такое RL-среда и почему это важно

RL-среды представляют собой тренировочные полигоны, симулирующие реальные программные среды. Как отметил один из основателей в интервью, создание таких сред напоминает разработку «очень скучной видеоигры».

Типичный пример: среда имитирует браузер Chrome и ставит перед ИИ-агентом задачу купить носки на Amazon. Агент получает оценку производительности и сигнал вознаграждения при успешном выполнении задачи.

  • Среда должна быть достаточно надежной чтобы фиксировать любое неожиданное поведение
  • Обеспечивать полезную обратную связь даже при ошибках
  • Поддерживать использование инструментов, доступ в интернет и работу с различными приложениями

Ирония в том, что мы возвращаемся к идеям 2016 года, когда OpenAI создавал «RL Gyms», а DeepMind побеждал в Go с AlphaGo. Но теперь мы пытаемся обучить трансформеры общей компьютерной грамотности вместо узкоспециализированных навыков — это как учить универсального солдата вместо снайпера. Результаты впечатляют, но и провалы становятся масштабнее.

Рыночный бум и инвестиционные тренды

Как сообщает TechCrunch, ведущие AI-лаборатории активно инвестируют в разработку RL-сред. Дженнифер Ли, генеральный партнер Andreessen Horowitz, отмечает: «Все крупные AI-лаборатории строят RL-среды внутри компаний, но создание таких наборов данных очень сложно, поэтому они также ищут сторонних поставщиков».

Рынок уже отреагировал появлением специализированных стартапов:

  • Mechanize и Prime Intellect — новые хорошо финансируемые игроки
  • Крупные компании по разметке данных (Mercor, Surge) расширяют инвестиции в RL-среды
  • Anthropic рассматривает возможность инвестиций более $1 миллиарда в следующие год

Технические вызовы и ограничения

В отличие от специализированных систем вроде AlphaGo, работавших в закрытых средах, современные ИИ-агенты на основе больших трансформерных моделей должны демонстрировать общие возможности. Это создает уникальные технические проблемы:

  1. Агенты могут «теряться» в навигации по сложным интерфейсам
  2. Совершать неожиданные действия (купить слишком много носков)
  3. Требуют значительно более сложных систем оценки и обратной связи

Эдвин Чен, CEO Surge, подтверждает «значительный рост» спроса на RL-среды со стороны AI-лабораторий. Его компания, сообщавшая о $1.2 миллиарда выручки в прошлом году, активно расширяет предложение в этом направлении.

Инвесторы надеются, что один из стартапов станет «Scale AI для сред», повторив успех компании с оценкой в $29 миллиардов, которая стала движущей силой эры чат-ботов. Однако вопрос остается открытым: действительно ли RL-среды продвинут передовой AI-прогресс или это очередной хайп-цикл в вечно оптимистичной Кремниевой долине.