ADASPEC: ускорение LLM в многоязычной среде до 2.3 раз

Японские исследователи представили ADASPEC — технологию, ускоряющую работу языковых моделей в многоязычном режиме за счет адаптивных словарей и самообучающихся моделей-черновиков.

Оглавление

Адаптивный подход к лингвистическому разнообразию
Результаты тестирования и новые стандарты

Современные большие языковые модели (LLM), ставшие фундаментом для чат-ботов и систем перевода, сталкиваются с серьезным барьером при выходе за пределы английского языка. Рост возможностей нейросетей неизбежно ведет к увеличению вычислительных затрат, что делает многоязычные запросы медленными и дорогостоящими. Как сообщает Tech Xplore, исследовательская группа под руководством профессора Le-Minh Nguyen из Японского передового института науки и технологий представила фреймворк ADASPEC, призванный радикально ускорить инференс для разных языков.

Проблема кроется в архитектуре ускорения, известной как спекулятивное декодирование. Этот метод предполагает использование небольшой внутренней модели-черновика (drafter), которая предсказывает несколько следующих слов, а основная тяжелая модель лишь подтверждает их в параллельном режиме. Тонкость в том, что существующие «черновики» оптимизированы под английский язык, а качественных данных для их обучения на других языках катастрофически не хватает, что сводит на нет весь выигрыш в скорости.

Адаптивный подход к лингвистическому разнообразию

Разработчики ADASPEC подошли к вопросу с инженерным изяществом, решив проблему дефицита данных через самогенерацию. Вместо поиска готовых наборов данных система использует саму целевую LLM для создания обучающих инструкций на нужном языке. Это позволяет эффективно подготавливать модели даже для языков с низким уровнем ресурсов, где ручная разметка данных практически невозможна.

Вторым важным нововведением стала оптимизация словаря. Обычно модели используют фиксированный список токенов, что избыточно при работе с конкретным языком. Фреймворк анализирует частотность слов и формирует компактные, специфичные для языка наборы. Во время работы система динамически переключает модели-черновики и размеры словаря, опираясь на контекст генерации в реальном времени.

Если основная модель изначально слаба в конкретном языке, никакой ‘черновик’ не исправит смысловые ошибки, он лишь поможет совершать их быстрее. Однако автоматизация создания словарей — это реальный рычаг для снижения инфраструктурных затрат, который наконец-то выводит неанглоязычный сегмент ИИ из состояния вечного догоняющего.

Результаты тестирования и новые стандарты

Для объективной оценки команда внедрила новый бенчмарк Multi-SpecBench, который поддерживает семь языков, включая японский, вьетнамский, французский и китайский. Испытания охватили широкий спектр задач: от генерации кода и математических рассуждений до суммаризации текстов. Результаты оказались весьма показательными для индустрии.

Фреймворк продемонстрировал ускорение до 2.3 раза по сравнению с EAGLE-2, одной из самых мощных современных систем спекулятивного декодирования.
Выяснилось, что некоторые старые методы ускорения в неанглоязычной среде работают даже медленнее, чем стандартная генерация без оптимизаций.
Система показала стабильную производительность во всех семи протестированных языках, подтверждая свою универсальность.

Подобные разработки критически важны для систем клиентской поддержки и образовательных ИИ-инструментов, где задержка в ответе напрямую влияет на пользовательский опыт. Снижение требований к вычислительным мощностям делает современные технологии доступнее для небольших организаций, работающих с локальными рынками, и постепенно стирает технологическую пропасть между английским и остальными языками мира.