Hunyuan-Large-Vision: лидер мультимодальных ИИ в Китае

Модель Hunyuan-Large-Vision от Tencent возглавила рейтинг китайских мультимодальных ИИ, уступая лишь GPT-5 и Gemini 2.5 Pro. При 389 млрд параметров она доступна только через облачный API.

Оглавление

Лидер среди китайских моделей
Архитектура и обучение
Доступ и ограничения

Мультимодальная модель Hunyuan-Large-Vision от Tencent стала лидером среди китайских ИИ-систем в рейтинге LMArena Vision Leaderboard, уступая только GPT-5 и Gemini 2.5 Pro, сообщает The Decoder. При архитектуре mixture-of-experts с 389 млрд параметров (активно используются 52 млрд) модель демонстрирует производительность на уровне Claude Sonnet 3.5.

Лидер среди китайских моделей

Hunyuan-Large-Vision обошла предыдущего лидера Qwen2.5-VL в максимальной конфигурации. В тестах OpenCompass Academic Benchmark модель показала средний балл 79.5, выделяясь особенно в мультиязычных задачах.

Рейтинг LMArena Vision: Hunyuan-Large-Vision на первом месте среди китайских ИИ — Источник: the-decoder.com

Модель лидирует в:

Визуальных QA-тестах
Видеоаналитике
Математических вычислениях
Распознавании текста (OCR)
3D-обработке

Примеры использования включают идентификацию растения Iris lactea, сочинение стихов по фото Сены, стратегические советы в Го и перевод вопросов на испанский. Модель также эффективнее предшественников обрабатывает редкие языки.

Графики сравнения производительности Hunyuan-Large-Vision и других моделей ИИ — Источник: the-decoder.com

Примеры работы мультимодальной модели Hunyuan-Large-Vision в различных задачах — Источник: the-decoder.com

Архитектура и обучение

Система состоит из трёх модулей:

Кастомный Vision Transformer (1 млрд параметров) для обработки изображений
Соединительный модуль для интеграции зрения и языка
Языковая модель на основе mixture-of-experts

Для обучения использовали инновационный пайплайн, преобразующий сырые данные в качественные инструкции с помощью ИИ-инструментов. Создано свыше 400 млрд мультимодальных текстовых сэмплов. Применялась техника Rejection Sampling: генерация нескольких ответов с отбором оптимальных вариантов и автоматической фильтрацией ошибок.

Обучение на фреймворке Angel-PTM с многоуровневым балансированием нагрузки сократило GPU-бутылочные горлышки на 18.8% и ускорило процесс.

Схема архитектуры мультимодальной модели Hunyuan-Large-Vision — Источник: the-decoder.com

Доступ и ограничения

Модель доступна исключительно через API на Tencent Cloud без открытого исходного кода. При 389 млрд параметров локальное использование на потребительском железе невозможно.

Hunyuan-Large-Vision — технологически впечатляющий шаг для китайской ИИ-индустрии, но с важными оговорками. Закрытость модели ограничивает независимую верификацию заявленных результатов, а сравнение с «устаревшими» западными аналогами (не последних версий) выглядит маркетинговым ходом. Для разработчиков вне экосистемы Tencent Cloud модель останется чёрным ящиком — в регионах с ограниченным доступом к китайским облакам это станет критическим барьером. Реальный тест — появление коммерческих кейсов вне Китая.

Новости

Мультимодальная модель Tencent Hunyuan-Large-Vision возглавила рейтинг китайских ИИ

Лидер среди китайских моделей

Архитектура и обучение

Доступ и ограничения

Еще интереснее

В Google придумали, обновлять убеждения LLM при получении новой информации

OpenAI представила GPT-5.4: агентная автономность и прямой контроль интерфейсов

Институт Аллена выпустил новую версию гибридной модели Olmo Hybrid 7B

ИИ от Meta* не ограничивается только Llama: что известно про проекты Mango и Avocado

Оставить комментарий