Сжатие контекста LCLM: ускорение нейросетей в 8 раз

Исследователи представили LCLM — модели, которые сжимают входные данные в 16 раз до обработки декодером, обеспечивая кратный прирост скорости работы нейросетей.

Бесконечные диалоги с ИИ-агентами и обработка объемных документов постепенно упираются в «бутылочное горлышко» аппаратных мощностей. Чем длиннее история переписки и больше извлеченных данных, тем тяжелее модели удерживать все это в памяти. Однако группа ученых из ведущих американских университетов, включая Колумбийский и Принстон, предложила элегантный выход из ситуации, представив технологию, которая радикально меняет подход к обработке входных данных.

Как сообщает VentureBeat, исследователи разработали семейство моделей Latent Context Language Models (LCLM). Эти системы способны сжимать входящий контекст в 16 раз еще до того, как он попадет в основной декодер нейросети. В отличие от привычных методов оптимизации KV-кеша (Key-Value cache), которые сначала загружают полный объем данных и лишь потом отсекают лишнее, LCLM работает на опережение, экономя ресурсы на самом раннем этапе.

Архитектура решения базируется на связке компактного энкодера (0.6B параметров) и более мощного декодера (4B параметров). Энкодер превращает блоки текста в сжатые латентные представления, которые декодер считывает вместо оригинальных токенов. На тестах RULER при сжатии в 16 раз технология показала скорость генерации в 8.8 раза выше, чем стандартные методы оптимизации кеша, сохраняя при этом приемлемый уровень точности.

Эффективность метода проявляется и на сложных задачах. При четырехкратном сжатии точность модели составила 91.76%, что лишь немногим уступает результату без сжатия (94.41%). Даже когда от исходного текста остается всего 6.25% данных, система справляется с тестами лучше конкурентов. Это напоминает способность человека быстро просматривать документ по диагонали, мгновенно выхватывая суть, прежде чем углубиться в детали.

Переход к сжатию в латентном пространстве — это признание того, что мы больше не можем кормить нейросети сырыми данными в надежде на бесконечный рост памяти GPU. Однако стоит помнить: любая абстракция чревата потерей нюансов в сложных логических цепочках. LCLM отлично «сканирует» документы, но пока не ясно, как она поведет себя в многоходовых рассуждениях, где каждое слово в цепочке мыслей критически важно. Это мощный инструмент для RAG-систем, но не универсальная таблетка от всех болезней архитектуры трансформеров.

Для бизнеса внедрение подобных моделей сулит прямую экономию. Данные опроса VB Pulse показывают, что оптимизация поиска информации стала для компаний приоритетом номер один, обогнав даже вопросы оценки качества ответов. Использование LCLM позволяет обрабатывать контекст в 1 миллион токенов на одной видеокарте H200, что ранее было технически невозможно из-за ограничений видеопамяти.

Несмотря на впечатляющие цифры, разработчикам придется приложить усилия для интеграции технологии в существующие конвейеры. Мика Голдблюм, исследователь из Колумбийского университета, отмечает, что системы поиска (RAG) потребуют дополнительной настройки под сжатые данные. Кроме того, открытым остается вопрос сжатия «цепочек рассуждений» (reasoning traces), которые модель генерирует сама в процессе работы. Модели уже доступны для тестирования на платформе HuggingFace.

Новости

Модели Latent Context обещают избавить нейросети от тупика, сжимая контекст в 16 раз

Еще интереснее

Вышла экспериментальная модель DiffusionGemm от Google — она генерирует текст через диффузию

Claude Fable 5 оказалась слабее GPT-5.5 в новом стресс-тесте для ИИ-агентов Agents’ Last Exam

Anthropic представила пятое поколение Claude — модели Fable 5 и Mythos 5, но в урезанном виде

Технология RAG может быть полезнее огромного контекстного окна в задачах на точность

Оставить комментарий