Йошуа Бенжио о рисках ИИ и безопасном искусственном интеллекте

Йошуа Бенжио, один из создателей глубокого обучения, предупреждает об экзистенциальных рисках ИИ и предлагает новый подход к созданию безопасных систем.

Оглавление

От триумфа к тревоге
Поворотный момент: ноябрь 2022 года
Три главных риска ИИ
Scientist AI: безопасность с самого начала
Наследие и новые горизонты

Один из отцов-основателей современного глубокого обучения, лауреат премии Тьюринга Йошуа Бенжио кардинально изменил направление своих исследований. Вместо совершенствования алгоритмов он теперь сосредоточен на предотвращении экзистенциальных угроз, которые несут технологии искусственного интеллекта.

От триумфа к тревоге

Йошуа Бенжио — компьютерный ученый из Монреальского университета в Канаде, получивший в 2019 году премию Тьюринга за пионерские работы в области глубокого обучения. Месяц назад он также стал первым исследователем, достигшим миллиона цитирований в Google Scholar. Но вместо празднования своих достижений Бенжио предпочитает говорить о рисках.

Сегодня он возглавляет международную группу советников по безопасности ИИ, куда входят представители 30 стран, Европейского союза, ОЭСР и ООН. В этом году группа выпустила Международный научный отчет о безопасности передового ИИ.

Поворотный момент: ноябрь 2022 года

«Когда появился ChatGPT в ноябре 2022 года, мне потребовалось два-три месяца, чтобы осознать, что мы находимся на пути, который может быть чрезвычайно опасным», — признается Бенжио в интервью журналу Nature.

Хотя изначально он был рад увидеть, что глубокое обучение наконец достигло этого рубежа, ученый понял фундаментальную проблему: «Мы не знаем, как обеспечить, чтобы эти системы вели себя так, как мы хотим».

Ирония судьбы: один из создателей технологии, которая сегодня трансформирует мир, теперь пытается защитить человечество от ее потенциальных последствий. Бенжио демонстрирует редкую среди технических гениев способность — видеть дальше следующего прорыва и думать о цене прогресса.

Три главных риска ИИ

В международном отчете выделены три основные категории рисков:

Непреднамеренные риски от сбоев
Злонамеренное использование
Системные риски, такие как потеря средств к существованию

«Злонамеренное использование уже происходит, но я думаю, мы видим лишь верхушку айсберга», — предупреждает Бенжио, ссылаясь на дипфейки и кибератаки, которые, вероятно, используют последние кибервозможности ИИ.

Но настоящий кошмар ученого — возможность вымирания человечества. «Тот, кто будет контролировать очень продвинутые ИИ в будущем, будет обладать огромной властью. И они могут использовать эту власть способами, которые хороши для них, но не для большинства из нас».

Scientist AI: безопасность с самого начала

Бенжио и его команда предложили концепцию «Scientist AI» — искусственного интеллекта со встроенной безопасностью. Этот подход вдохновлен тем, как ученые-люди познают мир и строят модели причинно-следственных механизмов.

«Scientist AI не является агентивным. Другими словами, у него нет цели, нет намерения. Поэтому мы можем доверять тому, что он говорит», — объясняет Бенжио.

Этот подход противоречит тренду компаний на создание агентов — ИИ, которые действуют в мире. Хорошая новость, по мнению Бенжио, заключается в том, что если у вас есть хорошие предикторы, вы можете использовать их для построения защитных механизмов.

Концепция «не-агентного» ИИ выглядит разумной альтернативой нынешней гонке за созданием автономных систем. Вместо того чтобы создавать черные ящики с непредсказуемыми целями, мы можем разрабатывать инструменты, а не партнеров — и возможно, это именно то, что нужно человечеству.

Наследие и новые горизонты

Среди множества своих работ Бенжио особенно гордится исследованиями по моделированию языка и механизмам внимания, которые начались еще в конце 1990-х. Эти работы заложили основу для создания более «системы 2» — более осознанных нейросетей, а не просто машин интуиции.

Также ученый отмечает менее известную, но не менее важную работу по обучению по учебному плану, где машина обучается на данных в определенном порядке, а не случайным образом. Эта методика стала стандартом в области машинного обучения.

Что касается влияния международного отчета по безопасности ИИ, Бенжио оптимистичен: «Я действительно взволнован тем, насколько большое влияние он уже оказывает. Он устанавливает на строгой научной основе: какие риски мы уже понимаем? Также он определяет текущие подходы к смягчению и их ограничения».

По материалам Nature