Оглавление
Сообщество Hugging Face пишет о выпуске третьей версии формата LeRobotDataset, который решает ключевую проблему масштабирования робототехнических данных. Новая архитектура позволяет хранить множество эпизодов в одном файле, преодолевая ограничения файловой системы при работе с миллионами записей.
Что изменилось в LeRobotDataset v3.0
LeRobotDataset — это стандартизированный формат данных, специально разработанный для обучения роботов. Он предоставляет унифицированный доступ к мультимодальным данным робототехники, включая сенсомоторные показания, видеопотоки с нескольких камер и статус телеуправления.
Ключевые улучшения в v3.0:
- Группировка множества эпизодов в одном файле с реляционными метаданными
- Нативная поддержка потокового режима доступа к данным
- Возможность обработки больших наборов данных без полной загрузки на диск
Формат уже поддерживает широкий спектр платформ: манипуляторы SO-100 и ALOHA-2, данные реальных гуманоидов, симуляционные наборы и даже данные беспилотных автомобилей.
Архитектура нового формата
Основная идея LeRobotDataset — разделение хранения данных и пользовательского API. Это позволяет эффективно сериализовать данные, представляя их в интуитивно понятном формате. Наборы данных организованы в три основных компонента:
- Табличные данные: низкоразмерные высокочастотные показания
- Медиафайлы: изображения и видео с камер
- Метаданные: описание задачи, тип робота, параметры измерений
Потоковая обработка данных — это не просто техническое улучшение, а фундаментальный сдвиг в подходе к робототехническому ML. Теперь исследователи могут работать с терабайтами данных, не беспокоясь о месте на диске — примерно как перейти от загрузки всего интернета к просмотру стрима. Ирония в том, что роботы учатся на лету, пока мы все еще скачиваем обновления по 10 ГБ.
Как работать с новым форматом
Для использования LeRobotDataset v3.0 необходимо установить версию lerobot-v0.4.0 или выше. Пока доступна экспериментальная сборка:
pip install "https://github.com/huggingface/lerobot/archive/33cad37054c2b594ceba57463e8f11ee374fa93c.zip"
Библиотека lerobot позволяет записывать datasets непосредственно на реальных роботах и хранить их на Hugging Face Hub. Пример команды для записи данных с манипулятора SO-101:
lerobot-record \ --robot.type=so101_follower \ --robot.port=/dev/tty.usbmodem585A0076841 \ --robot.id=my_awesome_follower_arm \ --robot.cameras="{ front: {type: opencv, index_or_path: 0, width: 1920, height: 1080, fps: 30}}" \ --teleop.type=so101_leader \ --teleop.port=/dev/tty.usbmodem58760431551 \ --teleop.id=my_awesome_leader_arm \ --display_data=true \ --dataset.repo_id=${HF_USER}/record-test \ --dataset.num_episodes=5 \ --dataset.single_task="Grab the black cube"
Новый формат особенно важен для сообщества робототехники, поскольку устраняет одно из основных препятствий для работы с большими данными — ограничения файловой системы. Теперь исследователи могут сосредоточиться на алгоритмах, а не на управлении тысячами отдельных файлов.
Оставить комментарий