NVIDIA продолжает развивать семейство открытых моделей Cosmos, предназначенных для моделирования и симуляции реального мира. С выпуском Cosmos Predict 2.5 и Cosmos Transfer 2.5 компания делает очередной шаг в создании фундаментальных моделей для робототехники, автономных систем и искусственного интеллекта, работающего с физической реальностью.
Cosmos Predict 2.5
Cosmos Predict 2.5 объединяет три ранее отдельных модели — Text2World, Image2World и Video2World — в единую архитектуру, способную генерировать согласованные и контролируемые видеомиры из различных входных модальностей. Модель обучена на 200 миллионах высококачественных видеоклипов и использует новый алгоритм обучения с подкреплением для улучшения качества и соответствия промптам.
- Расширенные временные горизонты — генерация последовательностей до 30 секунд с сохранением пространственно-временной согласованности
- Многокамерная генерация — создание синхронизированных видов для реалистичных многокамерных систем
- Эффективность архитектуры — улучшение качества, скорости вывода и ресурсной эффективности
- Использование Cosmos Reason — интеграция языковой модели для лучшего семантического заземления
Cosmos Transfer 2.5
В то время как Predict 2.5 создает миры, Transfer 2.5 трансформирует их, обеспечивая высококачественный перевод между мирами с пространственной обусловленностью. Новая модель в 3.5 раза меньше своего предшественника, но обеспечивает лучшее качество и скорость работы.
- Обучение политик для роботов — модели, обученные с аугментацией от Transfer 2.5, значительно лучше обобщаются на новых средах
- Улучшение для автономных транспортных средств — 60% улучшение в обнаружении полос и кубоидов по сравнению с предыдущей моделью
- Многокамерная согласованность — равномерное распределение управляющих блоков по сети для лучшей интеграции информации
- Снижение накопления ошибок — меньшее накопление ошибок для всех четырех модальностей управления
Дополнительные обновления платформы Cosmos
Cosmos Reason 1 — это открытая, настраиваемая языковая модель с 7 миллиардами параметров для физического ИИ и робототехники. Модель позволяет роботам и агентам компьютерного зрения рассуждать как люди, используя предварительные знания, понимание физики и здравый смысл.
Cosmos Dataset Search — векторный рабочий процесс, позволяющий разработчикам физического ИИ мгновенно искать и извлекать целевые сценарии из массивных обучающих наборов данных. Система способна искать миллиарды клипов за секунды, сокращая циклы разработки с лет до дней.
Интересно наблюдать, как NVIDIA последовательно строит экосистему для «физического ИИ» — концепции, которая еще несколько лет назад казалась научной фантастикой. Объединение трех моделей в одну — это не просто маркетинговый ход, а реальное упрощение рабочих процессов для разработчиков. Особенно впечатляет улучшение в 60% для автономных транспортных средств — такие цифры обычно вызывают скепсис, но учитывая репутацию NVIDIA в компьютерном зрении, здесь есть основания для оптимизма. Вопрос только в том, насколько быстро эти технологии перейдут из исследовательских лабораторий в реальные продукты.
Для разработчиков доступен Cosmos Cookbook с пошаговыми рецептами и скриптами для быстрого создания, настройки и развертывания моделей Cosmos.
По материалам Hugging Face.
Оставить комментарий