BEHAVIOR-1K от Stanford — новый стандарт для робототехники

Stanford выпустил BEHAVIOR-1K — эталонный набор из 1000 бытовых задач для роботов, который может стать стандартом оценки подобно ImageNet в компьютерном зрении.

Оглавление

Стандартизация робототехнических исследований
Техническая архитектура проекта
BEHAVIOR Challenge 2025

Стэнфордский университет выпустил новый бенчмарк для робототехники под названием BEHAVIOR-1K, который призван стать для этой области тем же, чем ImageNet стал для компьютерного зрения. Как сообщает The Decoder, проект возглавляет Фей-Фей Ли — исследовательница, известная своей работой над ImageNet.

Стандартизация робототехнических исследований

До сих пор в робототехнике отсутствовал единый стандарт для сравнения результатов. В то время как в компьютерном зрении и обработке естественного языка существуют общепринятые бенчмарки вроде ImageNet и MMLU, в робототехнике каждая исследовательская группа использовала собственные тестовые setup’ы, что делало сравнение результатов практически невозможным.

BEHAVIOR-1K определяет 1000 реалистичных бытовых задач, основанных на данных опросов о том, в каких областях люди больше всего нуждаются в помощи роботов. Многие из этих сценариев представляют собой многоэтапные процессы, такие как приготовление пищи или уборка.

Техническая архитектура проекта

Бенчмарк включает более 50 интерактивных 3D-сред, включая дома, офисы и рестораны, с интеграцией более 10 000 объектов. Каждая задача определяется на Behavior Domain Definition Language (BDDL) — языке, который специфицирует начальные и целевые условия с использованием символьной логики.

Техническая основа проекта — симулятор Nvidia Isaac Sim, построенный на платформе Omniverse с физическим движком PhysX. Поверх него работает OmniGibson — открытое программное обеспечение для симуляции, разработанное в Стэнфорде, которое поддерживает реалистичные взаимодействия с жидкостями, тканями, теплом и прозрачными объектами.

BEHAVIOR Challenge 2025

Вместе с бенчмарком Стэнфорд запускает BEHAVIOR Challenge 2025 — соревнование, где исследователи смогут тестировать свои методы на идентичных задачах. Впервые в робототехнике появится официальный лидерборд, что позволит напрямую сравнивать прогресс разных команд.

Робототехника десятилетиями страдала от отсутствия стандартизированных метрик. BEHAVIOR-1K — это долгожданный шаг к созданию общего языка для оценки прогресса. Интересно, что проект возглавляет Фей-Фей Ли, которая уже однажды революционизировала компьютерное зрение через ImageNet. Вопрос в том, сможет ли робототехническое сообщество так же массово принять этот стандарт, или мы увидим фрагментацию на несколько конкурирующих бенчмарков.

Джим Фан, директор по ИИ в Nvidia и соразработчик робототехнических систем вроде Gr00t, считает, что BEHAVIOR может предоставить тот самый «сигнал восхождения», которого не хватало исследованиям в робототехнике. При широком adoption’е этот бенчмарк может стать основой для создания практичных роботов общего назначения, способных выполнять повседневные задачи.

Новости

В Стэнфорде разработали BEHAVIOR-1K — эталонный набор данных для робототехники

Стандартизация робототехнических исследований

Техническая архитектура проекта

BEHAVIOR Challenge 2025

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий