Оглавление

Исследователи Tencent представили X-Omni — гибридную модель генерации изображений, которая использует обучение с подкреплением для преодоления ключевых ограничений авторегрессивных систем. Разработка показывает лучшие в отрасли результаты по визуализации текста, опережая GPT-4o в обработке китайских символов.

Устранение разрыва между моделями

Гибридные системы, сочетающие авторегрессивное планирование с диффузионной генерацией, страдают от рассогласования семантических токенов. X-Omni решает эту проблему через единый цикл обучения с подкреплением: авторегрессивная часть на базе Qwen2.5-7B генерирует токены, диффузионный декодер FLUX.1-dev создаёт изображения, а система оценки даёт обратную связь для улучшения согласованности. После 200 шагов обучения модель превзошла традиционные гибридные подходы.

Красочный коллаж из портретов, природы, фэнтези и повседневных сюжетов, созданный моделью X-Omni
Источник: www.the-decoder.com

Архитектурные инновации

Вместо пиксельной токенизации X-Omni использует:

  • SigLIP-VQ токенизатор, преобразующий изображения в 16,384 семантических токена
  • Трёхуровневую систему оценки: человеческие предпочтения, модель для высокого разрешения и Qwen2.5-VL-32B для соответствия промпту
  • OCR-системы GOT-OCR-2.0 и PaddleOCR для верификации текста

Бенчмарк-революция в текстовой визуализации

На тестах X-Omni показала:

  • 0.901 балла для английского текста — лучший результат среди аналогов
  • Преимущество перед GPT-4o в китайской письменности
  • Рекордные 87.65 балла на DPG для «унифицированных моделей»
Матрица 4×4: сравнение качества генерации текста разными ИИ-моделями
Источник: www.the-decoder.com

Открытая экосистема

Несмотря на скромное преимущество в большинстве тестов (GPT-4o и Seedream 3.0 остаются конкурентами), ключевое достижение X-Omni — сборка конкурентоспособной модели из открытых компонентов. Проект опубликован на Hugging Face и GitHub.

Обучение с подкреплением для согласования модулей — элегантное решение фундаментальной проблемы гибридных систем. Хотя абсолютное лидерство X-Omni спорно, её прорыв в рендеринге текста важен для локализованных приложений. Открытость модели особенно ценна: это редкий пример, когда крупный игрок не просто использует open-source, а создаёт конкурентоспособный продукт на его основе. Показательно, что Tencent обошла OpenAI именно в азиатской письменности — намёк на стратегическую важность региональных особенностей. Жду адаптаций под другие языки.

По материалам: The Decoder