Оглавление

В публичном споре с исследователем DeepMind Адамом Брауном главный научный сотрудник по искусственному интеллекту в Meta Янн Лекун объяснил, почему большие языковые модели (LLM) представляют собой тупик на пути к интеллекту, подобному человеческому. По его словам, фундаментальная проблема заключается в самой архитектуре этих моделей, основанной на предсказании следующего токена.

Аргумент против предсказания токенов

Пока модели вроде ChatGPT и Gemini доминируют в дискуссиях об искусственном интеллекте, ведущие ученые расходятся во мнениях, способна ли лежащая в их основе технология достичь искусственного общего интеллекта (AGI). В дискуссии, модерируемой Джанной Левин, столкнулись две резко контрастирующие позиции.

Адам Браун защищает потенциал текущей архитектуры. Он рассматривает LLM как глубокие нейронные сети, обученные предсказывать следующий «токен» — слово или часть слова — на основе огромных объемов текста. Браун сравнивает этот простой механизм с биологической эволюцией: простые правила, такие как максимизация потомства или минимизация ошибки предсказания, могут привести к появлению сложности через масштабирование.

В качестве доказательства Браун указывает, что современные модели могут решать задачи Математической олимпиады, которых не было в их обучающих данных. Анализ «нейронных цепей» в этих моделях предполагает, что они развивают внутренние вычислительные пути для математики без явного программирования. Браун не видит признаков насыщения; с большим объемом данных и вычислительной мощности он верит, что кривая прогресса продолжит расти.

Почему дискретное предсказание терпит неудачу в реальном мире

Лекун не согласен с этим оптимистичным взглядом. Хотя он признает, что LLM являются полезными инструментами, обладающими сверхчеловеческими знаниями в текстовой форме, он утверждает, что им не хватает фундаментального понимания физической реальности.

Основная критика Лекуна направлена на техническую основу моделей: авторегрессионное предсказание дискретных токенов. Этот подход работает для языка, потому что словарь содержит конечное число слов.

Однако, по мнению Лекуна, этот подход терпит неудачу при применении к реальному миру, например, к видеоданным. Реальность непрерывна и многомерна, а не дискретна. «Вы не можете по-настоящему представить распределение по всем возможным вещам, которые могут произойти в будущем, потому что это, по сути, бесконечный список возможностей», — объясняет Лекун.

Попытки перенести принцип предсказания текста на уровень пикселей видео проваливались на протяжении последних 20 лет. Мир слишком «грязный» и зашумленный, чтобы точное предсказание пикселей привело к пониманию физики или причинности.

Новые архитектуры для физического понимания

В поддержку своего тезиса Лекун указывает на колоссальную неэффективность современных систем ИИ по сравнению с биологическими мозгами. LLM может обучаться на примерно 30 триллионах слов — объеме текста, который занял бы у человека полмиллиона лет чтения.

Четырехлетний ребенок, напротив, обработал меньше текста, но огромное количество визуальных данных. Через зрительный нерв, который передает около 20 мегабайт в секунду, ребенок обрабатывает примерно 10^14 байт данных за свою короткую жизнь. Это соответствует объему данных, используемому для обучения крупнейших LLM. Тем не менее, пока ребенок изучает интуитивную физику, гравитацию и постоянство объектов за несколько месяцев, LLM борются с базовыми физическими задачами. «У нас до сих пор нет роботов, которые могли бы убрать со стола после ужина или загрузить посудомоечную машину», — отмечает Лекун.

Для Лекуна решение заключается не в более крупных языковых моделях, а в новых архитектурах, подобных JEPA, которые изучают абстрактные представления. Вместо предсказания каждой детали (пикселя) эти системы должны научиться моделировать состояние мира абстрактно и делать предсказания в пространстве этого представления — подобно тому, как люди планируют, не рассчитывая заранее каждое движение мышц.

Скептицизм Лекуна в отношении гипотезы чистого масштабирования перекликается с аргументами, которые когнитивный ученый Гэри Маркус выдвигал более десяти лет. Как и Лекун, Маркус утверждает, что статистические модели предсказания идеально имитируют языковые паттерны, но им не хватает подлинного понимания причинности или логики. В то время как Лекун сосредоточен на новых архитектурах обучения, Маркус часто подчеркивает необходимость объединения нейронных сетей с символьным ИИ (нейро-символьный ИИ) для достижения надежности и устойчивости.

Спор между «скалерами» и «архитекторами» — это классическое противостояние инженерного подхода и фундаментальной науки. Браун по сути предлагает продолжать наращивать мощность уже работающего двигателя, надеясь, что он сам собой превратится в реактивный. Лекун же настаивает на том, что для полета нужны крылья, а не просто более мощный мотор. Его аргумент про 4-летнего ребенка убийственно точен: мы тратим астрономические ресурсы на обучение моделей тому, что для человека является побочным продуктом познания мира, а не основной задачей. Ирония в том, что индустрия, помешанная на «эффективности», упорно игнорирует самый эффективный интеллектуальный механизм из известных — человеческий мозг.

Определение сроков для машинного сознания

В ходе заключительной сессии вопросов и ответов с участием философа Дэвида Чалмерса исследователи обсуждали возможность машинного сознания. Адам Браун дал конкретный, хотя и осторожный прогноз: если прогресс продолжится текущими темпами, системы ИИ могут развить сознание примерно к 2036 году. Для Брауна сознание не связано с биологической материей, а является следствием обработки информации — независимо от того, происходит ли оно на углероде или кремнии.

Он рассматривает современные системы ИИ как первый настоящий «модельный организм для интеллекта». Подобно тому, как биологи используют плодовых мушек для изучения сложных биологических процессов, нейронные сети предлагают способ изучения интеллекта в лабораторных условиях. В отличие от человеческого мозга, эти системы можно заморозить, отмотать назад и проанализировать состояние за состоянием. Браун надеется, что это «разделение» интеллекта поможет решить загадку человеческого сознания.

Лекун подошел к теме более прагматично, определив эмоции технически как «предвосхищение результатов». Система, которая обладает моделями мира и может предсказать, помогает действие цели или мешает ей, функционально переживает нечто эквивалентное эмоции. Лекун убежден, что машины однажды обретут форму морали, хотя ее соответствие будет зависеть от того, как люди определят цели и ограничители.

Обеспечение безопасности через дизайн, ориентированный на цели

Мнения также расходятся в вопросах безопасности ИИ. В то время как Браун предупреждает об «агентском рассогласовании» — сценарии, при котором системы ИИ развивают собственные цели и обманывают людей — Лекун считает такие апокалиптические сценарии преувеличенными.

Опасность возникает только в том случае, если системы становятся автономными. Поскольку LLM не могут по-настоящему разумно планировать, Лекун утверждает, что в настоящее время они не представляют экзистенциальной угрозы. Для будущих, более умных систем Лекун предлагает строить их «ориентированными на цели». У этих систем были бы жестко заданные цели и ограничители, предотвращающие конкретные действия, подобно тому, как социальные запреты эволюционно закреплены у людей.

Лекун также настоятельно предостерег от монополии на разработку ИИ. Поскольку в будущем каждое цифровое взаимодействие будет опосредовано ИИ, разнообразие открытых систем крайне важно для демократии.

По материалам The Decoder.