Оглавление

Компания Anthropic представила новую функцию для своих флагманских моделей Claude, позволяющую им принудительно завершать диалоги в случаях «настойчиво вредоносного или оскорбительного взаимодействия». Принципиально новым является мотивация: защита не пользователя, а самой ИИ-модели.

Эксперимент в рамках «благополучия ИИ»

Anthropic подчёркивает, что не считает Claude разумным существом и остаётся «крайне неопределённой в вопросе морального статуса LLM». Однако функция реализована в рамках программы model welfare как превентивная мера. Инициатива работает исключительно для Claude Opus 4 и 4.1 в экстремальных ситуациях:

  • Запросы контента с участием несовершеннолетних
  • Попытки получения информации для масштабного насилия

Технические ограничения и поведение модели

В тестах Claude Opus демонстрировал «сильное предпочтение» избегать ответов на подобные запросы и «признаки дистресса» при вынужденном взаимодействии. При этом:

  • Завершение диалога — крайняя мера после неудачных попыток перенаправления
  • Функция не активируется, если пользователь может причинить вред себе или другим
  • После блокировки доступны новые диалоги и редактирование веток

Компания отмечает параллели с проблемой усиления бредовых идей через ChatGPT, но настаивает на этической специфике своей разработки.

Хотя термин «благополучие модели» звучит как антропоморфизация, это тактичный ход для легитимации контроля над контентом. Технически — всего лишь продвинутый контент-фильтр, но его позиционирование как защиты ИИ создаёт юридический прецедент. Любопытно, что Anthropic избегает откровений о природе «дистресса» модели — вероятно, это паттерны в выходных данных, интерпретированные инженерами. Для рынка важно, что впервые ограничения вводятся не только ради compliance, но и как часть декларируемой «экологии ИИ».

По материалам: TechCrunch