Оглавление
Янн ЛеКун и Рэндалл Балестриеро из Meta* представили LeJEPA — новый метод обучения, который упрощает самообучение без учителя, исключая необходимость во многих технических ухищрениях, на которые полагаются современные системы.
Самообучение без учителя считается краеугольным камнем современного искусственного интеллекта. Но предыдущие подходы Meta*, включая DINO и iJEPA, по-прежнему зависят от множества инженерных трюков, чтобы избежать сбоев обучения. Согласно новой статье ЛеКуна и Балестриеро, LeJEPA решает эту проблему на фундаментальном уровне. Вероятно, это последняя статья, которую ЛеКун опубликует в Meta* перед уходом из компании для запуска собственного стартапа.
LeJEPA, сокращение от Latent-Euclidean Joint-Embedding Predictive Architecture, предназначен для упрощения обучения в рамках более широкой архитектуры JEPA ЛеКуна. Идея заключается в том, что модели ИИ могут эффективно обучаться без дополнительных подпорок, если их внутренние представления следуют правильной математической структуре.
Математическая основа нового подхода
Исследователи показывают, что наиболее полезные внутренние особенности модели должны следовать изотропному гауссовскому распределению, что означает, что изучаемые признаки равномерно распределены вокруг центральной точки и одинаково варьируются во всех направлениях. Это распределение помогает модели изучать сбалансированные, устойчивые представления и улучшает надежность при решении последующих задач.
Как модели JEPA изучают структуру из сырых данных
Подход JEPA ЛеКуна подает модели несколько представлений одной и той же базовой информации, таких как два слегка различных кадрирования изображения, сегменты видео или аудиоклипы. Цель состоит в том, чтобы модель отображала эти вариации в схожие внутренние представления, когда они отражают одно и то же семантическое содержание.
Система учится определять, какие аспекты сырых данных имеют значение, не полагаясь на человеческие метки. Она обучается делать предсказания о скрытых или измененных частях входных данных на основе того, что уже понимает, подобно тому, как человек может распознать объект, даже если часть его закрыта.
Это ядро идеи JEPA: прогнозное обучение, которое фокусируется на моделировании базовой структуры мира, а не на предсказании сырых пикселей или аудиосэмплов. ЛеКун рассматривает JEPA как ключевой путь к человекообразному интеллекту и более прочную основу, чем системы на основе трансформеров.
SIGReg приносит стабильность без дополнительных трюков
Для достижения идеального распределения признаков исследователи разработали новый метод регуляризации под названием Sketched Isotropic Gaussian Regularization, или SIGReg. Он сравнивает фактические эмбеддинги модели с теоретически оптимальным распределением и корректирует отклонения математически чистым способом.
SIGReg заменяет многие распространенные стабилизирующие трюки, используемые в самообучении без учителя, включая методы stop-gradient, схемы «учитель-ученик» и сложные графики скорости обучения. В статье сообщается, что SIGReg работает за линейное время, использует мало памяти, легко масштабируется на несколько GPU и требует всего одного настраиваемого параметра. Основная реализация занимает около 50 строк кода.
Простая теоретическая идея с сильными результатами
Согласно исследователям, LeJEPA остается стабильным без дополнительных механизмов даже на больших наборах данных, обеспечивая при этом конкурентоспособную точность.
В тестах более чем 60 моделей, включая ResNets, ConvNeXTs и Vision Transformers, LeJEPA последовательно демонстрировал чистое поведение обучения и высокую производительность. На ImageNet-1K модель ViT-H/14 достигла около 79% точности top-1 при использовании линейной оценки. На специализированных наборах данных, таких как Galaxy10, содержащий изображения галактик, LeJEPA превзошел большие предварительно обученные модели, такие как DINOv2 и DINOv3. Команда рассматривает это как доказательство того, что методы, построенные на сильных теоретических принципах, иногда могут превосходить массивные модели, обученные традиционными техниками, особенно в предметно-ориентированных задачах.
LeJEPA выглядит как элегантное математическое решение для проблемы, которую индустрия привыкла решать костылями. SIGReg вместо десятков эвристик — это тот случай, когда красивая теория побеждает грубую силу. Иронично, что ЛеКун покидает Meta* как раз тогда, когда его концепция JEPA начинает приносить реальные плоды. Возможно, его стартап станет местом, где эта архитектура получит полноценное развитие без корпоративных ограничений.
По сообщению The Decoder.
*Meta признана экстремистской и запрещена в РФ
Оставить комментарий