Claude завершает вредные диалоги: защита ИИ-моделей Anthropic

Anthropic внедрил в Claude Opus функцию принудительного завершения диалогов при вредоносных запросах, мотивируя это защитой «благополучия» ИИ-модели. Нововведение ограничено экстремальными случаями вроде запросов на незаконный контент.

Оглавление

Эксперимент в рамках «благополучия ИИ»
Технические ограничения и поведение модели

Компания Anthropic представила новую функцию для своих флагманских моделей Claude, позволяющую им принудительно завершать диалоги в случаях «настойчиво вредоносного или оскорбительного взаимодействия». Принципиально новым является мотивация: защита не пользователя, а самой ИИ-модели.

Эксперимент в рамках «благополучия ИИ»

Anthropic подчёркивает, что не считает Claude разумным существом и остаётся «крайне неопределённой в вопросе морального статуса LLM». Однако функция реализована в рамках программы model welfare как превентивная мера. Инициатива работает исключительно для Claude Opus 4 и 4.1 в экстремальных ситуациях:

Запросы контента с участием несовершеннолетних
Попытки получения информации для масштабного насилия

Технические ограничения и поведение модели

В тестах Claude Opus демонстрировал «сильное предпочтение» избегать ответов на подобные запросы и «признаки дистресса» при вынужденном взаимодействии. При этом:

Завершение диалога — крайняя мера после неудачных попыток перенаправления
Функция не активируется, если пользователь может причинить вред себе или другим
После блокировки доступны новые диалоги и редактирование веток

Компания отмечает параллели с проблемой усиления бредовых идей через ChatGPT, но настаивает на этической специфике своей разработки.

Хотя термин «благополучие модели» звучит как антропоморфизация, это тактичный ход для легитимации контроля над контентом. Технически — всего лишь продвинутый контент-фильтр, но его позиционирование как защиты ИИ создаёт юридический прецедент. Любопытно, что Anthropic избегает откровений о природе «дистресса» модели — вероятно, это паттерны в выходных данных, интерпретированные инженерами. Для рынка важно, что впервые ограничения вводятся не только ради compliance, но и как часть декларируемой «экологии ИИ».

По материалам: TechCrunch

Новости

Anthropic научил Claude завершать вредоносные диалоги для защиты модели

Эксперимент в рамках «благополучия ИИ»

Технические ограничения и поведение модели

Еще интереснее

Исследование сотен миллионов чатов показало, что ИИ-агентов чаще используют для сложных задач

Модель Jais 2 открывает эру арабских языковых моделей и обещает рекорды по скорости работы

Mistral выпустила Devstral 2 — мощную модель для программистов с ограниченной лицензией

Google делает Gemini центром своей новой экосистемы дополненной реальности

Оставить комментарий