Оглавление
Исследовательские группы из ByteDance Seed и Гонконгского университета науки и технологий (HKUST) представили результаты эксперимента, который может заставить многих пересмотреть свои взгляды на подготовку данных для ИИ. Как сообщает издание The Decoder, простое распознавание текста при обучении длинным контекстам не только малоэффективно, но и способно ухудшить итоговые показатели мультимодальных моделей.
В центре внимания оказалась новая модель MMProLong, созданная на базе открытой архитектуры Qwen2.5-VL от Alibaba. Несмотря на свои скромные размеры в 7 миллиардов параметров, она демонстрирует удивительную стабильность при работе с документами объемом до 512 000 токенов, обходя в тестах гораздо более тяжеловесных конкурентов от Google и InternVL.
Ловушка простого копирования
Традиционно считалось, что для понимания длинных документов модели нужно «скормить» как можно больше данных для транскрибации. Логика проста: если ИИ может переписать текст с каждой страницы 100-страничного PDF-файла, значит, он его понимает. Однако практика показала обратное. Авторы исследования обнаружили, что задачи на чистое оптическое распознавание символов (OCR) сбивают модель с толку, превращая ее в прилежного, но недалекого переписчика.
Вместо этого исследователи предложили метод вопрос-ответных пар. С помощью вспомогательной модели Seed 2.0 они генерировали вопросы к конкретным частям документа. В процессе обучения модель была вынуждена не просто видеть текст, а активно искать в нем ответ, игнорируя десятки страниц посторонней информации. Именно этот навык фильтрации оказался критическим для работы с гигантскими контекстными окнами.
Секреты стабильности контекста
В ходе экспериментов выяснилось несколько неочевидных деталей, которые могут сэкономить бюджеты многим командам разработчиков. Во-первых, обучение исключительно на сверхдлинных последовательностях не дает преимуществ. Гибкость модели тренируется на смеси коротких и длинных примеров, что позволяет ей одинаково эффективно ориентироваться в данных разного масштаба.
Во-вторых, оказалось, что основной барьер в работе с длинным контекстом — это не логические рассуждения как таковые, а именно извлечение релевантной информации. Модель, натренированная находить иголку в стоге сена, автоматически сохраняет свои способности к рассуждению, даже если в обучающей выборке было совсем мало математических или логических задач.
Эффективность MMProLong доказывает, что гонка контекстных окон в миллионы токенов часто скрывает за собой архитектурную рыхлость. Тот факт, что модель на 7B параметров держит стабильность на 512k токенах, обучившись всего на 128k, выглядит как пощечина гигантам, но это лишь временная фора. Без глубокого понимания семантических связей в видеопотоке такие модели рискуют остаться продвинутыми поисковиками по тексту, не способными к истинному синтезу смыслов в динамике.
Универсальность без лишних затрат
Любопытно, что навыки, полученные MMProLong при работе с документами, спонтанно перенеслись на анализ видео. Хотя модель никогда не обучалась специально на видеоряде, она смогла эффективно находить нужные моменты в длинных роликах. Это подтверждает гипотезу о том, что механизм внимания в мультимодальных системах универсален: неважно, ищем ли мы строку в отчете или кадр в фильме.
Подход ByteDance заметно контрастирует с методами других игроков, например, DeepSeek. Если последние делают ставку на агрессивное сжатие визуальных данных и изменение самой архитектуры кодировщиков, то ByteDance доказывает: иногда достаточно просто правильно спросить. В конечном счете, качество «диеты» данных для нейросети определяет ее интеллектуальную форму гораздо сильнее, чем количество терабайт, пропущенных через фильтры.
Оставить комментарий