NVIDIA выпустила датасет на 8 млн образцов для компьютерного зрения

NVIDIA выпустила обновленный открытый датасет для обучения моделей компьютерного зрения объемом 8 миллионов образцов с поддержкой видеоанализа, OCR и логических рассуждений.

Оглавление

Что нового в датасете
Технологические инновации в создании данных
Структура и применение

Всего через два месяца после первого релиза NVIDIA расширяет свой открытый датасет для обучения моделей компьютерного зрения почти втрое — с 3 до 11 миллионов образцов. Новый выпуск Nemotron VLM Dataset V2 добавляет 8 миллионов высококачественных примеров для задач оптического распознавания символов (OCR), анализа изображений и видео, а также цепочек рассуждений.

Что нового в датасете

Команда NVIDIA Nemotron сосредоточилась на трех ключевых направлениях развития:

Новые модальности данных — добавлены задачи анализа видео, понимания интерфейсов, сложных диаграмм и схем
Усиление логического мышления — расширены данные для обучения цепочек рассуждений, что помогает моделям не просто давать ответы, но и понимать процесс их получения
Инструменты для генерации OCR-данных — открыт конвейер для создания обучающих данных из LaTeX-документов

Круговая диаграмма распределения категорий в датасете Nemotron VLM версии 2 — Источник: huggingface.co

Технологические инновации в создании данных

Особый интерес представляет подход NVIDIA к генерации данных для оптического распознавания символов (OCR). Вместо традиционных методов конвертации в HTML, которые теряют структуру и семантику, компания разработала специализированный конвейер компиляции LaTeX. Эта система патчит TeX-движок для извлечения точных позиций глифов и семантического контекста, создавая богато аннотированные датасеты с изображениями PDF-страниц, 2D-ограничивающими рамками, форматированным текстом в Markdown и семантическими классами.

NVIDIA открывает исходный код этого конвейера, а также предоставляет инструменты аугментации для создания разнообразных макетов, шрифтов и многоязычного контента.

Это действительно стратегический ход — вместо того чтобы просто выпускать очередную модель, NVIDIA дает сообществу инструменты для создания собственных обучающих данных. Особенно впечатляет подход с LaTeX-компиляцией: большинство компаний ограничиваются сканированием готовых PDF, а здесь предлагается методологически правильный способ генерации структурированных данных с сохранением семантики. Похоже, NVIDIA понимает, что в эпоху больших языковых моделей (LLM) настоящая ценность — не в моделях, а в качественных данных для их обучения.

Структура и применение

Nemotron VLM Dataset V2 состоит из:

55% — образцы вопрос-ответ по изображениям
25% — данные оптического распознавания символов (OCR)
10% — анализ видео
10% — логические рассуждения на основе изображений

OCR-компонент включает многоязычные данные для десяти языков, что значительно расширяет возможности моделей для международного применения.

Разработчики могут использовать датасет целиком или дополнительно курировать его с помощью NVIDIA NeMo Curator для создания специализированных наборов данных под конкретные задачи.

NVIDIA провела комплексные проверки безопасности и соответствия для этого датасета, включая верификацию разрешенных источников данных и сканирование на предмет токсичного контента. Датасет готов к коммерческому использованию и предназначен для поддержки корпоративных сценариев и разработки production-решений на основе ИИ.

По материалам Hugging Face.

Новости

NVIDIA выпустила 8-миллионный открытый датасет для обучения моделей компьютерного зрения

Что нового в датасете

Технологические инновации в создании данных

Структура и применение

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий