Оглавление
Пока пользователи разочаровываются в ограниченных возможностях современных ИИ-агентов от OpenAI и Perplexity, крупные технологические компании делают ставку на новый подход — обучение в симулированных средах. По сообщению TechCrunch, индустрия переходит от статических наборов данных к интерактивным симуляциям, где искусственный интеллект может обучаться многошаговым задачам.
Что такое среды обучения с подкреплением
RL-среды (Reinforcement Learning environments) представляют собой виртуальные полигоны, имитирующие реальные программные среды. Как отмечают разработчики, создание таких сред напоминает разработку «очень скучной видеоигры». Например, среда может симулировать браузер Chrome и ставить перед агентом задачу купить носки на Amazon, оценивая его эффективность и отправляя сигналы вознаграждения за успешные действия.
Рыночный бум и инвестиции
Спрос на RL-среды породил новое поколение стартапов, включая Mechanize и Prime Intellect, которые привлекают значительное финансирование. Крупные компании по разметке данных, такие как Mercor и Surge, также активно инвестируют в это направление.
Особенно показателен пример Anthropic — по данным The Information, компания рассматривает возможность инвестирования более $1 миллиарда в RL-среды в течение следующего года. Инвесторы надеются, что один из стартапов станет «новым Scale AI для сред обучения».
Технические вызовы
Создание эффективных RL-сред — задача исключительной сложности. В отличие от статических наборов данных, среды должны быть достаточно надежными, чтобы фиксировать любое неожиданное поведение агента и предоставлять полезную обратную связь. Некоторые среды позволяют агентам использовать инструменты, доступ в интернет или различные приложения, другие фокусируются на узких задачах в корпоративном ПО.
Ирония в том, что технология не нова — OpenAI еще в 2016 году создавала «RL Gyms», а AlphaGo от DeepMind использовала похожие техники. Но сегодняшняя задача сложнее: мы пытаемся обучить трансформерные модели общего назначения работать в открытых средах, где количество потенциальных ошибок на порядки выше. Это как учить ребенка не просто играть в шахматы, а одновременно вести переговоры, управлять бюджетом и ремонтировать автомобиль.
Конкурентное поле
CEO Surge Эдвин Чен подтверждает «значительный рост спроса» на RL-среды со стороны AI-лабораторий. Компании с опытом в разметке данных имеют преимущество благодаря ресурсам и установленным отношениям с крупными игроками индустрии.
Ключевой вопрос остается открытым: станут ли RL-среды тем прорывом, который действительно выведет ИИ-агентов на новый уровень, или это очередная технологическая волна хайпа, которая схлынет после первых неудач.
Оставить комментарий