Оглавление
Пока потребительские ИИ-агенты вроде ChatGPT от OpenAI или Comet от Perplexity демонстрируют ограниченные возможности, индустрия ищет новые подходы к их обучению. Одним из ключевых направлений становятся RL-среды (reinforcement learning environments) — симуляционные рабочие пространства, где агенты могут обучаться многошаговым задачам.
Что такое RL-среда и почему это важно
RL-среды представляют собой тренировочные полигоны, симулирующие реальные программные среды. Как отметил один из основателей в интервью, создание таких сред напоминает разработку «очень скучной видеоигры».
Типичный пример: среда имитирует браузер Chrome и ставит перед ИИ-агентом задачу купить носки на Amazon. Агент получает оценку производительности и сигнал вознаграждения при успешном выполнении задачи.
- Среда должна быть достаточно надежной чтобы фиксировать любое неожиданное поведение
- Обеспечивать полезную обратную связь даже при ошибках
- Поддерживать использование инструментов, доступ в интернет и работу с различными приложениями
Ирония в том, что мы возвращаемся к идеям 2016 года, когда OpenAI создавал «RL Gyms», а DeepMind побеждал в Go с AlphaGo. Но теперь мы пытаемся обучить трансформеры общей компьютерной грамотности вместо узкоспециализированных навыков — это как учить универсального солдата вместо снайпера. Результаты впечатляют, но и провалы становятся масштабнее.
Рыночный бум и инвестиционные тренды
Как сообщает TechCrunch, ведущие AI-лаборатории активно инвестируют в разработку RL-сред. Дженнифер Ли, генеральный партнер Andreessen Horowitz, отмечает: «Все крупные AI-лаборатории строят RL-среды внутри компаний, но создание таких наборов данных очень сложно, поэтому они также ищут сторонних поставщиков».
Рынок уже отреагировал появлением специализированных стартапов:
- Mechanize и Prime Intellect — новые хорошо финансируемые игроки
- Крупные компании по разметке данных (Mercor, Surge) расширяют инвестиции в RL-среды
- Anthropic рассматривает возможность инвестиций более $1 миллиарда в следующие год
Технические вызовы и ограничения
В отличие от специализированных систем вроде AlphaGo, работавших в закрытых средах, современные ИИ-агенты на основе больших трансформерных моделей должны демонстрировать общие возможности. Это создает уникальные технические проблемы:
- Агенты могут «теряться» в навигации по сложным интерфейсам
- Совершать неожиданные действия (купить слишком много носков)
- Требуют значительно более сложных систем оценки и обратной связи
Эдвин Чен, CEO Surge, подтверждает «значительный рост» спроса на RL-среды со стороны AI-лабораторий. Его компания, сообщавшая о $1.2 миллиарда выручки в прошлом году, активно расширяет предложение в этом направлении.
Инвесторы надеются, что один из стартапов станет «Scale AI для сред», повторив успех компании с оценкой в $29 миллиардов, которая стала движущей силой эры чат-ботов. Однако вопрос остается открытым: действительно ли RL-среды продвинут передовой AI-прогресс или это очередной хайп-цикл в вечно оптимистичной Кремниевой долине.
Оставить комментарий