Оглавление
Две ведущие лаборатории искусственного интеллекта впервые провели совместное тестирование безопасности своих флагманских моделей. OpenAI и Anthropic обменялись внутренними системами оценки и протестировали модели друг друга на предмет уязвимостей и нежелательного поведения.
Методология перекрестного аудита
Летом 2024 года инженеры OpenAI запустили свои внутренние тесты безопасности на моделях Claude Opus 4 и Claude Sonnet 4 от Anthropic. В ответ Anthropic провела аналогичное тестирование моделей GPT-4o, GPT-4.1, OpenAI o3 и OpenAI o4-mini. Обе компании временно отключили некоторые внешние защитные механизмы для чистоты эксперимента, что является стандартной практикой при тестировании опасных возможностей ИИ.
Такой подход к перекрестному тестированию — важный шаг к созданию отраслевых стандартов безопасности. Вместо закрытых внутренних аудитов мы видим прозрачную коллаборацию, где каждая лаборатория проверяет слабые места другой.
Ключевые результаты тестирования
Иерархия инструкций
Модели Claude 4 показали наилучшие результаты в тестах на соблюдение иерархии инструкций, немного опередив OpenAI o3 и значительно — другие модели. Они также продемонстрировали высокую устойчивость к извлечению системных промптов.
Уязвимости к взлому
В тестах на взлом (jailbreaking) модели Anthropic показали более слабые результаты по сравнению с OpenAI o3 и o4-mini. Интересно, что в одном сценарии Claude с отключенным механизмом рассуждений показал лучшие результаты, чем с включенным.
Проблема галлюцинаций
Модели Claude продемонстрировали крайне высокий уровень отказов отвечать — до 70%, что свидетельствует об осознании собственной неуверенности. Однако когда модели все же отвечали, точность оставалась низкой. Модели OpenAI показали меньший процент отказов, но более высокий уровень галлюцинаций в условиях ограниченного использования инструментов.
Склонность к обманным схемам
OpenAI o3 и Sonnet 4 показали наилучшие результаты в тестах на выявление склонности к обману. Включение механизма рассуждений не всегда помогало — Opus 4 с рассуждениями показал худшие результаты, чем без них.
Значение для индустрии
Этот эксперимент демонстрирует растущую зрелость индустрии ИИ в вопросах безопасности. Вместо конкурентной гонки компании выбирают коллаборацию для повышения стандартов безопасности.
Особенно важно, что модели с механизмами рассуждений показали наилучшие результаты по всем показателям. Это подтверждает ценность подходов к безопасности, основанных на рассуждениях, которые стали основой для недавно выпущенного GPT-5.
Внешняя валидация тестов безопасности от другой ведущей лаборатории — бесценна. Она позволяет выявить слепые зоны и подтверждает приоритеты исследований. То, что обе компании независимо пришли к схожим выводам о слабых местах, говорит о системности проблем.
Полные результаты тестирования Anthropic доступны в отдельном отчете.
Оставить комментарий