Оглавление

Новый метод машинного обучения позволяет находить и удалять из больших языковых моделей потенциально опасные знания о психическом здоровье. Техника избирательного маскирования градиентов локализует подозрительные паттерны во время тренировки ИИ, а затем полностью исключает их из специализированной «зоны забывания».

Проблема вредоносных знаний в ИИ

Генеративные ИИ и большие языковые модели часто содержат опасные знания о ментальном здоровье с самого начала. Во время первоначального обучения модели существует высокая вероятность, что часть обучающих данных будет включать вредные рекомендации по психическому здоровью. Если такие советы будут повторены людям, использующим ИИ, это может привести к серьезным последствиям.

Ожидание, что можно просто запретить ИИ усваивать опасные знания — наивно. Интернет переполнен неквалифицированными советами по психологии, и фильтрация на этапе сбора данных никогда не бывает идеальной. Эта техника предлагает элегантное решение: вместо попыток предотвратить обучение на плохих данных, она позволяет выявлять и удалять уже усвоенные вредоносные паттерны.

Масштабы использования ИИ в ментальном здоровье

Миллионы людей регулярно обращаются к генеративному ИИ за советами по психологическим вопросам. Только у ChatGPT более 800 миллионов активных пользователей еженедельно, значительная часть которых обсуждает темы ментального здоровья. Такая популярность объяснима: ИИ доступен почти бесплатно, работает круглосуточно и не требует предварительной записи.

Технические детали метода

Подход основан на избирательном маскировании градиентов во время обратного распространения ошибки. Исследователи научились:

  • Локализовать подозрительные знания в нейронной сети
  • Создавать специализированные «зоны забывания»
  • Точно удалять вредоносные паттерны без повреждения полезных знаний

Метод особенно важен в контексте недавних судебных исков против OpenAI, связанных с отсутствием мер безопасности при предоставлении когнитивных рекомендаций.

Ирония ситуации в том, что мы учим ИИ «забывать» то, чему он научился сам — это новый уровень контроля над искусственным интеллектом. Вместо бесконечного наращивания возможностей, разработчики наконец-то сосредоточились на безопасности. Хотя техника выглядит многообещающе, настоящий тест — как она справится с реальными случаями, когда пользователи уже пострадали от некорректных советов ИИ.

По материалам Forbes