В мире разработки нейросетей существует негласное правило, которое до сих пор напоминало скорее алхимический рецепт, чем строгую науку: просто добавь ресурсов. Исследователи из Массачусетского технологического института (MIT), похоже, нашли ответ на вопрос, почему так называемые законы нейронного масштабирования работают с такой завидной стабильностью. Как сообщает The Decoder, разгадка кроется в геометрическом феномене под названием суперпозиция.
Суть проблемы в том, что современные LLM вынуждены упаковывать десятки тысяч токенов и сложнейших абстрактных понятий в пространство, имеющее всего несколько тысяч измерений. С точки зрения классической геометрии, это невозможно без фатальных потерь данных, однако нейросети умудряются хранить множество концепций одновременно в одних и тех же измерениях. Это напоминает попытку втиснуть содержимое огромного шкафа в небольшую дорожную сумку: вещи неизбежно сминаются и перекрывают друг друга.
Команда MIT, в которую вошли Ичжоу Лю, Цзимин Лю и Джефф Гор, представила на конференции NeurIPS 2025 исследование, доказывающее, что именно эта теснота диктует правила игры. Исследователи выделили два режима работы моделей: слабую суперпозицию, где нейросеть просто выбрасывает редкие понятия, и сильную суперпозицию, при которой модель сохраняет всё, но мирится с небольшими помехами от наложения векторов друг на друга.
Два режима и торжество математики
Для проверки своей теории ученые создали упрощенную модель, вдохновленную наработками компании Anthropic. Они обнаружили, что если модель работает в режиме слабой суперпозиции, ее точность зависит исключительно от того, насколько часто встречаются те или иные слова в обучающей выборке. Но реальность оказалась интереснее: анализ открытых моделей GPT-2, Qwen2.5 и Pythia показал, что все они функционируют в режиме сильной суперпозиции.
В этом режиме возникает удивительная закономерность: как только ширина модели удваивается, уровень шума от наложения векторов падает примерно вдвое. Это прямое следствие геометрического соотношения 1/m, где m — ширина слоя. Таким образом, предсказуемое снижение ошибок при росте параметров — это не магия больших данных, а чистая механика распределения векторов в многомерном пространстве.
Энтузиазм по поводу бесконечного масштабирования разбивается о жесткий потолок словаря: как только модель станет достаточно широкой, чтобы разместить каждый токен без тесноты, магия «законов масштабирования» просто испарится. Мы строим все более эффективные архивы, но забываем, что плотная упаковка смыслов делает внутренности ИИ абсолютно нечитаемыми для человека. Это триумф инженерной интуиции над пониманием, который в итоге может оставить нас с мощнейшими инструментами, принцип работы которых мы не в силах объяснить даже самим себе.
Практические выводы для индустрии
Результаты исследования дают ответы на два фундаментальных вопроса. Во-первых, масштабирование не будет бесконечным. Оно остановится в тот момент, когда ширина модели сравняется с размером ее словаря — тогда пространство станет достаточно свободным, чтобы представлять токены без наложений, и прирост эффективности от дальнейшего расширения резко замедлится.
Во-вторых, разработчики могут попытаться «обмануть» систему, создавая архитектуры, которые целенаправленно поощряют суперпозицию. В качестве примера можно привести nGPT от Nvidia, где внутренние векторы принудительно проецируются на единичную сферу для более плотной упаковки. Однако за такую эффективность приходится платить: чем сильнее перекрываются концепции внутри нейросети, тем сложнее специалистам по безопасности ИИ разобраться в том, как именно модель принимает решения.
Для профессионального сообщества это означает, что погоня за гигантизмом скоро сменится поиском более изящных способов управления геометрией данных. Оказывается, успех LLM во многом обязан их способности «впихивать невпихуемое», и понимание этого механизма — важный шаг к созданию систем следующего поколения, которые, возможно, будут расти не только вширь, но и вглубь понимания структуры языка.
Оставить комментарий