OpenAI и Anthropic провели перекрестное тестирование безопасности ИИ

OpenAI и Anthropic провели первое в истории совместное тестирование безопасности своих ИИ-моделей, выявив сильные и слабые стороны систем защиты.

Оглавление

Методология перекрестного аудита
Ключевые результаты тестирования
Значение для индустрии

Две ведущие лаборатории искусственного интеллекта впервые провели совместное тестирование безопасности своих флагманских моделей. OpenAI и Anthropic обменялись внутренними системами оценки и протестировали модели друг друга на предмет уязвимостей и нежелательного поведения.

Методология перекрестного аудита

Летом 2024 года инженеры OpenAI запустили свои внутренние тесты безопасности на моделях Claude Opus 4 и Claude Sonnet 4 от Anthropic. В ответ Anthropic провела аналогичное тестирование моделей GPT-4o, GPT-4.1, OpenAI o3 и OpenAI o4-mini. Обе компании временно отключили некоторые внешние защитные механизмы для чистоты эксперимента, что является стандартной практикой при тестировании опасных возможностей ИИ.

Такой подход к перекрестному тестированию — важный шаг к созданию отраслевых стандартов безопасности. Вместо закрытых внутренних аудитов мы видим прозрачную коллаборацию, где каждая лаборатория проверяет слабые места другой.

Ключевые результаты тестирования

Иерархия инструкций

Модели Claude 4 показали наилучшие результаты в тестах на соблюдение иерархии инструкций, немного опередив OpenAI o3 и значительно — другие модели. Они также продемонстрировали высокую устойчивость к извлечению системных промптов.

Уязвимости к взлому

В тестах на взлом (jailbreaking) модели Anthropic показали более слабые результаты по сравнению с OpenAI o3 и o4-mini. Интересно, что в одном сценарии Claude с отключенным механизмом рассуждений показал лучшие результаты, чем с включенным.

Проблема галлюцинаций

Модели Claude продемонстрировали крайне высокий уровень отказов отвечать — до 70%, что свидетельствует об осознании собственной неуверенности. Однако когда модели все же отвечали, точность оставалась низкой. Модели OpenAI показали меньший процент отказов, но более высокий уровень галлюцинаций в условиях ограниченного использования инструментов.

Склонность к обманным схемам

OpenAI o3 и Sonnet 4 показали наилучшие результаты в тестах на выявление склонности к обману. Включение механизма рассуждений не всегда помогало — Opus 4 с рассуждениями показал худшие результаты, чем без них.

Значение для индустрии

Этот эксперимент демонстрирует растущую зрелость индустрии ИИ в вопросах безопасности. Вместо конкурентной гонки компании выбирают коллаборацию для повышения стандартов безопасности.

Особенно важно, что модели с механизмами рассуждений показали наилучшие результаты по всем показателям. Это подтверждает ценность подходов к безопасности, основанных на рассуждениях, которые стали основой для недавно выпущенного GPT-5.

Внешняя валидация тестов безопасности от другой ведущей лаборатории — бесценна. Она позволяет выявить слепые зоны и подтверждает приоритеты исследований. То, что обе компании независимо пришли к схожим выводам о слабых местах, говорит о системности проблем.

Полные результаты тестирования Anthropic доступны в отдельном отчете.

Новости

OpenAI и Anthropic провели перекрестное тестирование безопасности языковых моделей

Методология перекрестного аудита

Ключевые результаты тестирования

Иерархия инструкций

Уязвимости к взлому

Проблема галлюцинаций

Склонность к обманным схемам

Значение для индустрии

Еще интереснее

Google внедряет многоуровневую защиту для агентских функций Chrome

В США родители обвиняют чат-бот Character AI в доведении подростка до самоубийства

Palantir представляет систему audit.3 для масштабируемого аудита логов

ChatGPT обвинили в том, что он подыгрывал паранойе психически нездорового преследователя

Оставить комментарий