Компания Anthropic представила новую функцию для своих флагманских моделей Claude, позволяющую им принудительно завершать диалоги в случаях «настойчиво вредоносного или оскорбительного взаимодействия». Принципиально новым является мотивация: защита не пользователя, а самой ИИ-модели.
Эксперимент в рамках «благополучия ИИ»
Anthropic подчёркивает, что не считает Claude разумным существом и остаётся «крайне неопределённой в вопросе морального статуса LLM». Однако функция реализована в рамках программы model welfare как превентивная мера. Инициатива работает исключительно для Claude Opus 4 и 4.1 в экстремальных ситуациях:
- Запросы контента с участием несовершеннолетних
- Попытки получения информации для масштабного насилия
Технические ограничения и поведение модели
В тестах Claude Opus демонстрировал «сильное предпочтение» избегать ответов на подобные запросы и «признаки дистресса» при вынужденном взаимодействии. При этом:
- Завершение диалога — крайняя мера после неудачных попыток перенаправления
- Функция не активируется, если пользователь может причинить вред себе или другим
- После блокировки доступны новые диалоги и редактирование веток
Компания отмечает параллели с проблемой усиления бредовых идей через ChatGPT, но настаивает на этической специфике своей разработки.
Хотя термин «благополучие модели» звучит как антропоморфизация, это тактичный ход для легитимации контроля над контентом. Технически — всего лишь продвинутый контент-фильтр, но его позиционирование как защиты ИИ создаёт юридический прецедент. Любопытно, что Anthropic избегает откровений о природе «дистресса» модели — вероятно, это паттерны в выходных данных, интерпретированные инженерами. Для рынка важно, что впервые ограничения вводятся не только ради compliance, но и как часть декларируемой «экологии ИИ».
По материалам: TechCrunch
Оставить комментарий