Оглавление
Исследователи Tencent представили X-Omni — гибридную модель генерации изображений, которая использует обучение с подкреплением для преодоления ключевых ограничений авторегрессивных систем. Разработка показывает лучшие в отрасли результаты по визуализации текста, опережая GPT-4o в обработке китайских символов.
Устранение разрыва между моделями
Гибридные системы, сочетающие авторегрессивное планирование с диффузионной генерацией, страдают от рассогласования семантических токенов. X-Omni решает эту проблему через единый цикл обучения с подкреплением: авторегрессивная часть на базе Qwen2.5-7B генерирует токены, диффузионный декодер FLUX.1-dev создаёт изображения, а система оценки даёт обратную связь для улучшения согласованности. После 200 шагов обучения модель превзошла традиционные гибридные подходы.

Архитектурные инновации
Вместо пиксельной токенизации X-Omni использует:
- SigLIP-VQ токенизатор, преобразующий изображения в 16,384 семантических токена
- Трёхуровневую систему оценки: человеческие предпочтения, модель для высокого разрешения и Qwen2.5-VL-32B для соответствия промпту
- OCR-системы GOT-OCR-2.0 и PaddleOCR для верификации текста
Бенчмарк-революция в текстовой визуализации
На тестах X-Omni показала:
- 0.901 балла для английского текста — лучший результат среди аналогов
- Преимущество перед GPT-4o в китайской письменности
- Рекордные 87.65 балла на DPG для «унифицированных моделей»

Открытая экосистема
Несмотря на скромное преимущество в большинстве тестов (GPT-4o и Seedream 3.0 остаются конкурентами), ключевое достижение X-Omni — сборка конкурентоспособной модели из открытых компонентов. Проект опубликован на Hugging Face и GitHub.
Обучение с подкреплением для согласования модулей — элегантное решение фундаментальной проблемы гибридных систем. Хотя абсолютное лидерство X-Omni спорно, её прорыв в рендеринге текста важен для локализованных приложений. Открытость модели особенно ценна: это редкий пример, когда крупный игрок не просто использует open-source, а создаёт конкурентоспособный продукт на его основе. Показательно, что Tencent обошла OpenAI именно в азиатской письменности — намёк на стратегическую важность региональных особенностей. Жду адаптаций под другие языки.
По материалам: The Decoder
Оставить комментарий