Оглавление

Сообщество Hugging Face пишет о выпуске третьей версии формата LeRobotDataset, который решает ключевую проблему масштабирования робототехнических данных. Новая архитектура позволяет хранить множество эпизодов в одном файле, преодолевая ограничения файловой системы при работе с миллионами записей.

Что изменилось в LeRobotDataset v3.0

LeRobotDataset — это стандартизированный формат данных, специально разработанный для обучения роботов. Он предоставляет унифицированный доступ к мультимодальным данным робототехники, включая сенсомоторные показания, видеопотоки с нескольких камер и статус телеуправления.

Ключевые улучшения в v3.0:

  • Группировка множества эпизодов в одном файле с реляционными метаданными
  • Нативная поддержка потокового режима доступа к данным
  • Возможность обработки больших наборов данных без полной загрузки на диск

Формат уже поддерживает широкий спектр платформ: манипуляторы SO-100 и ALOHA-2, данные реальных гуманоидов, симуляционные наборы и даже данные беспилотных автомобилей.

Архитектура нового формата

Основная идея LeRobotDataset — разделение хранения данных и пользовательского API. Это позволяет эффективно сериализовать данные, представляя их в интуитивно понятном формате. Наборы данных организованы в три основных компонента:

  1. Табличные данные: низкоразмерные высокочастотные показания
  2. Медиафайлы: изображения и видео с камер
  3. Метаданные: описание задачи, тип робота, параметры измерений

Потоковая обработка данных — это не просто техническое улучшение, а фундаментальный сдвиг в подходе к робототехническому ML. Теперь исследователи могут работать с терабайтами данных, не беспокоясь о месте на диске — примерно как перейти от загрузки всего интернета к просмотру стрима. Ирония в том, что роботы учатся на лету, пока мы все еще скачиваем обновления по 10 ГБ.

Как работать с новым форматом

Для использования LeRobotDataset v3.0 необходимо установить версию lerobot-v0.4.0 или выше. Пока доступна экспериментальная сборка:

pip install "https://github.com/huggingface/lerobot/archive/33cad37054c2b594ceba57463e8f11ee374fa93c.zip"

Библиотека lerobot позволяет записывать datasets непосредственно на реальных роботах и хранить их на Hugging Face Hub. Пример команды для записи данных с манипулятора SO-101:

lerobot-record \
 --robot.type=so101_follower \
 --robot.port=/dev/tty.usbmodem585A0076841 \
 --robot.id=my_awesome_follower_arm \
 --robot.cameras="{ front: {type: opencv, index_or_path: 0, width: 1920, height: 1080, fps: 30}}" \
 --teleop.type=so101_leader \
 --teleop.port=/dev/tty.usbmodem58760431551 \
 --teleop.id=my_awesome_leader_arm \
 --display_data=true \
 --dataset.repo_id=${HF_USER}/record-test \
 --dataset.num_episodes=5 \
 --dataset.single_task="Grab the black cube"

Новый формат особенно важен для сообщества робототехники, поскольку устраняет одно из основных препятствий для работы с большими данными — ограничения файловой системы. Теперь исследователи могут сосредоточиться на алгоритмах, а не на управлении тысячами отдельных файлов.