Оглавление
После пяти лет активной разработки библиотека huggingface_hub достигла версии 1.0 — знакового рубежа, демонстрирующего зрелость инструмента, который поддерживает 200 000 зависимых библиотек и обеспечивает доступ к более чем 2 миллионам публичных моделей, 500 тысячам наборов данных и 1 миллиону Spaces. Это релиз с обратно несовместимыми изменениями, призванными поддержать следующее десятилетие открытого машинного обучения.
Ключевые изменения в версии 1.0
Основные изменения в этом релизе включают миграцию на httpx как бэкенд-библиотеку, полностью переработанный CLI hf (который заменяет устаревший huggingface-cli) с интерфейсом на основе Typer и значительно расширенным функционалом, а также полный переход на hf_xet для передачи файлов вместо устаревшего hf_transfer.
Команда разработчиков отмечает, что большинство библиотек машинного обучения должны работать одинаково хорошо как с версиями 0.x, так и с 1.x. Основное исключение — transformers, который требует версии 0.x в релизах v4 и версии 1.x в предстоящем релизе v5.
Обновить библиотеку можно командой:
pip install --upgrade huggingface_hub
Пять лет разработки — это серьезный срок для open-source проекта. То, что начиналось как простой Git-враппер для трансформеров, превратилось в фундаментальную инфраструктуру для всего сообщества машинного обучения. Переход на Xet вместо Git LFS — особенно умное решение: замена файлового уровня дедупликации на чанковый в эпоху многогигабайтных моделей выглядит как единственно разумный подход.
Эволюция библиотеки: от простого враппера до платформы
История huggingface_hub началась с простой идеи: что если делиться моделями машинного обучения будет так же просто, как кодом на GitHub? В ранние дни Hugging Face Hub исследователи и практики сталкивались с общей проблемой — обученные модели часто оставались в изоляции, хранясь на локальных машинах и передаваясь через ненадежные ссылки.

Формирование основ (2020-2021)
Ранние релизы заложили фундамент. Версия 0.0.8 представила первые API, оборачивающие Git-команды для взаимодействия с репозиториями. Версия 0.0.17 добавила аутентификацию на основе токенов, обеспечив безопасный доступ к приватным репозиториям.
Переход от Git к HTTP (2022)
В июне 2022 года версия 0.8.1 ознаменовала переломный момент: был представлен HTTP Commit API. Вместо необходимости установки Git и Git LFS пользователи получили возможность загружать файлы напрямую через HTTP-запросы. Новый API create_commit() значительно упростил рабочие процессы, особенно для больших файлов моделей.
Это был не просто технический апгрейд, а философский сдвиг. Команда больше не строила Git-враппер для трансформеров, а создавала специализированную инфраструктуру для артефактов машинного обучения, способную поддерживать любую библиотеку в экосистеме ML.
Расширение функциональности (2022-2024)
По мере того как Hub превращался из простого хранилища моделей в полноценную платформу, huggingface_hub расширял свои возможности:
- Создание и управление Spaces для хостинга интерактивных ML-демо
- Интеграция Inference Endpoints для развертывания моделей в продакшн-инфраструктуре
- Добавление Jobs API для управления вычислительными задачами
- Социальные функции: пул-реквесты, комментарии, лайки, подписки и Collections
Революция Xet: умная передача данных
Версия 0.30.0 представила Xet — революционный протокол для хранения больших объектов в Git-репозиториях. В отличие от Git LFS, который дедуплицирует на уровне файлов, Xet работает на уровне чанков (по 64 КБ). При обновлении большого файла в наборе данных или модели загружаются или скачиваются только измененные чанки, а не весь файл целиком.

Миграция была масштабной: начав с 20 петабайт в более чем 500 000 репозиториев, через год все 77+ ПБ в 6 000 000+ репозиториях были переведены на Xet-бэкенд. Это произошло без вмешательства пользователей и без нарушения существующих рабочих процессов.
По сообщению Hugging Face, библиотека развивалась силами глобального сообщества из почти 300 контрибьюторов и миллионов пользователей.
Оставить комментарий