Диффузионная модель A2D-VL от RunwayML для параллельной генерации

RunwayML представила диффузионную модель A2D-VL, которая преобразует авторегрессионные модели в параллельные декодеры с гибким балансом скорости и качества генерации.

Оглавление

Проблемы существующих диффузионных моделей
Инновационный подход A2D-VL
Преимущества новой архитектуры

Компания RunwayML разработала инновационную диффузионную визуально-языковую модель A2D-VL 7B, которая преобразует существующие авторегрессионные модели в параллельные диффузионные декодеры. Этот подход позволяет достичь компромисса между скоростью и качеством генерации без необходимости обучения с нуля.

Проблемы существующих диффузионных моделей

Визуально-языковые модели (VLM) анализируют изображения и видео через языковое взаимодействие, обеспечивая работу таких приложений, как генерация подписей к изображениям и визуальные вопросы-ответы. Традиционные авторегрессионные VLM генерируют токены последовательно, что исключает параллелизацию и ограничивает пропускную способность вывода.

Существующие диффузионные VLM сталкиваются с несколькими серьезными проблемами:

Высокая стоимость обучения — диффузионное языковое моделирование требует до 16 раз больше вычислительных ресурсов по сравнению с предсказанием следующего токена
Устаревшие архитектуры — отсутствие поддержки современных компонентов, таких как нативные визуальные разрешения и мультимодальные позиционные кодирования
Деградация качества в длинных ответах — качество генерации ухудшается при создании развернутых текстов
Отсутствие KV кэширования — затрудняет эффективное вычисление внимания

Абляционное исследование методов адаптации для визуально-языковых диффузионных моделей — Источник: runwayml.com

Инновационный подход A2D-VL

Модель A2D-VL 7B создана путем дообучения существующей авторегрессионной модели Qwen2.5-VL на задаче диффузионного языкового моделирования. Исследователи применили маскированный диффузионный фреймворк, где токены «зашумляются» через маскирование и «очищаются» через предсказание оригинальных токенов.

Ключевые адаптационные техники включают:

Аннелинг размера блоков — постепенное увеличение окна предсказания диффузии
Аннелинг уровня шума — позиционно-зависимое маскирование для плавного перехода между задачами

Переход от последовательной к параллельной генерации — это как перейти от ручной сборки к конвейерному производству. Техника аннелинга напоминает обучение с постепенным увеличением сложности: сначала модель учится предсказывать короткие последовательности, затем переходит к полноценной параллельной генерации. Особенно впечатляет экономия данных — 400 тысяч пар против 12 миллионов у конкурентов. Это демонстрирует, что эффективное преобразование архитектур возможно без колоссальных вычислительных затрат.

Преимущества новой архитектуры

Модель A2D-VL 7B демонстрирует значительные улучшения по сравнению с предыдущими решениями:

Эффективное обучение — требуется всего 400 тысяч визуальных пар вопросов-ответов против 12+ миллионов у LLaDA-V 8B
Современная архитектура — унаследовала современные компоненты Qwen2.5-VL
Улучшенное качество длинных ответов — использование диффузионного декодирования блоками по 8 токенов

Диффузионные языковые модели предлагают гибкий компромисс между скоростью и качеством. Ключевым элементом управления этим балансом является порог уверенности, который адаптивно контролирует параллелизм. При высоком пороге уверенности (например, 90%) модель отдает приоритет точности, генерируя несколько токенов только при высокой уверенности. При низком пороге (например, 30%) она отдает приоритет скорости, допуская большую неопределенность для достижения большего параллелизма.

По материалам RunwayML

Новости

RunwayML представила диффузионную модель A2D-VL для параллельной генерации текста на изображениях

Проблемы существующих диффузионных моделей

Инновационный подход A2D-VL

Преимущества новой архитектуры

Еще интереснее

В Индии создали дрон с ИИ для автономного картографирования территорий

Представлен SQaLe — крупнейший датасет для обучения моделей преобразования текста в SQL

Китайские исследователи сжали модель DeepSeek-R1 в 10 раз без потери качества

Google DeepMind представила AlphaProof 2 — ИИ для проверки математических доказательств

Оставить комментарий