Китайский технологический гигант Alibaba возглавил инвестиционный раунд серии B объемом 290 миллионов долларов для стартапа Shengshu (известного также под брендом Vidu). Как сообщает издание The Tech Buzz, эти средства пойдут на разработку универсальных «моделей мира», которые должны стать мозгом для следующего поколения робототехники. Сделка подчеркивает важный концептуальный сдвиг в индустрии: вера в то, что текстовые нейросети смогут решить любые задачи, постепенно уступает место поиску систем, понимающих физическую реальность.
Интерес Alibaba Cloud к этому направлению объясняется довольно просто — классические большие языковые модели при всей своей разговорчивости остаются «запертыми» в цифровом пространстве. Они мастерски предсказывают следующее слово, но зачастую пасуют перед элементарными законами физики или пространственной логикой. Для беспилотного транспорта или складских роботов, где ошибка в оценке гравитации или инерции стоит реальных денег, такие пробелы в «знаниях» становятся критическим барьером.
От предсказания слов к пониманию реальности
Стартап Shengshu ставит перед собой амбициозную цель: научить ИИ предсказывать не следующий токен в предложении, а следующий кадр реальности. Если робот толкает предмет, модель должна заранее «видеть» траекторию его падения. Такой подход, основанный на обучении через видеоданные, позволяет алгоритмам усваивать причинно-следственные связи и правила взаимодействия объектов в трехмерном пространстве без участия человека-учителя.
Сотрудничество с Alibaba дает стартапу не только капитал, но и доступ к колоссальным вычислительным мощностям, необходимым для обработки видеопотоков. В условиях, когда OpenAI и Google продолжают масштабировать мультимодальные системы, китайский рынок делает ставку на прикладную физическую автоматизацию. Это особенно актуально для производственного сектора КНР, где автоматизация становится единственным ответом на дефицит рабочей силы.
Переход к моделям мира выглядит как признание капитуляции перед ограниченностью чистого текста, однако вычислительная цена такого «прозрения» колоссальна. Попытка обучить робота здравому смыслу через видео — это стратегически верный маневр, который, тем не менее, рискует захлебнуться в нехватке качественных данных для бесконечного разнообразия реальных сцен. Индустрия меняет одну веру на другую, надеясь, что физика окажется податливее лингвистики.
Технологические вызовы и рыночные перспективы
Несмотря на оптимизм инвесторов, создание универсальной модели мира сопряжено с огромными техническими сложностями. Системе необходимо не просто запомнить сценарии, а научиться обобщать опыт: робот, обученный в одном цеху, должен адекватно ориентироваться в другом без долгого дообучения. По оценкам экспертов McKinsey, успешное внедрение физического ИИ может принести экономике до 4 триллионов долларов к 2030 году, но пока мы видим лишь первые шаги в этом направлении.
Сегодняшний ландшафт ИИ становится все более фрагментированным. Пока западные лаборатории спорят о достижении AGI через логические рассуждения, компании вроде Shengshu пытаются заземлить интеллект в буквальном смысле. Возможно, именно через понимание того, почему чашка падает вниз, а не вверх, лежит кратчайший путь к созданию машин, которые приносят реальную пользу, а не только пишут красивые эссе.
Оставить комментарий