Оглавление

Японская лаборатория искусственного интеллекта Sakana AI разработала революционный метод объединения моделей машинного обучения, который позволяет создавать более мощные гибридные системы без дорогостоящего процесса переобучения. Технология под названием Model Merging of Natural Niches (M2N2) преодолевает ограничения существующих подходов и может даже создавать новые модели практически с нуля.

Что такое объединение моделей

Объединение моделей — это техника интеграции знаний нескольких специализированных ИИ-моделей в единую, более способную систему. В отличие от тонкой настройки, которая совершенствует одну предварительно обученную модель с использованием новых данных, объединение моделей сочетает параметры нескольких моделей одновременно.

Для корпоративных команд это предлагает несколько практических преимуществ:

  • Бесградиентный процесс, требующий только прямых проходов
  • Вычислительная экономия по сравнению с тонкой настройкой
  • Избегание проблемы «катастрофического забывания»
  • Работа без доступа к исходным обучающим данным

Как работает M2N2

M2N2 решает ограничения предыдущих методов, черпая вдохновение в эволюционных принципах природы. Алгоритм имеет три ключевые особенности:

Сравнение производительности объединенной модели, сочетающей сильные стороны исходных моделей
Источник: www.venturebeat.com
  1. Гибкие границы объединения — вместо предопределенных слоев использует «точки разделения» и «коэффициенты смешивания»
  2. Управление разнообразием через конкуренцию за ресурсы, что естественным образом поощряет модели с уникальными навыками
  3. Эвристика «притяжения» для парного объединения моделей на основе комплементарных сильных сторон

Практические применения

Исследователи протестировали M2N2 в трех различных областях, продемонстрировав его универсальность и эффективность.

В эксперименте с LLM они объединили математическую модель (WizardMath-7B) с агентской (AgentEvol-7B), обе на архитектуре Llama 2. Результирующая модель показала высокую производительность как на математических задачах, так и на веб-заданиях.

Схема процесса эволюционного алгоритма для слияния моделей ИИ
Источник: www.venturebeat.com

В области генерации изображений объединение модели, обученной на японских промптах (JSDXL), с тремя моделями Stable Diffusion привело к созданию системы с проявляющимися двуязычными способностями — она могла генерировать качественные изображения по обоим языкам, хотя оптимизировалась исключительно на японских подписях.

Технология M2N2 — это не просто очередной академический эксперимент, а практический инструмент, который может изменить экономику разработки ИИ. Вместо того чтобы тратить миллионы на обучение монолитных моделей с нуля, компании смогут комбинировать специализированные решения, создавая гибриды, превосходящие сумму своих частей. Особенно ценно это для рынков с ограниченными вычислительными ресурсами, где каждый доллар на инфраструктуру имеет значение. Ирония в том, что природа, которую мы так стараемся имитировать в ИИ, уже миллионы лет использует именно эту стратегию — комбинирование успешных черт через естественный отбор.

Для предприятий, уже разработавших специализированные модели, бизнес-кейс для объединения становится убедительным. Авторы указывают на новые гибридные возможности, которые сложно достичь иными способами. Например, объединение LLM для убедительных продажных презентаций с моделью компьютерного зрения для интерпретации реакций клиентов может создать единого агента, адаптирующего свою презентацию в реальном времени на основе живой видеообратной связи.

По сообщению VentureBeat, исследователи выпустили код M2N2 на GitHub, что открывает возможности для дальнейшего развития и применения технологии сообществом.