Оглавление
Компания Anthropic представила открытый инструмент Petri, который использует AI-агентов для автоматизации проверки безопасности языковых моделей. В ходе пилотных тестов 14 ведущих моделей инструмент выявил проблемное поведение, включая обман и склонность к разглашению информации.
Как работает автоматизированный аудит безопасности
По словам разработчиков, сложность и разнообразие поведения современных AI-систем значительно превосходят возможности ручного тестирования. Petri (Parallel Exploration Tool for Risky Interactions) призван закрыть этот пробел, автоматизируя процесс аудита с помощью AI-агентов.
Инструмент уже использовался для оценки Claude 4, Claude Sonnet 4.5, а также в сотрудничестве с OpenAI. Petri теперь доступен на GitHub и основан на фреймворке «Inspect» от UK AI Security Institute (AISI).
Процесс работы Petri состоит из нескольких этапов:
- Исследователи предоставляют инструкции на естественном языке для тестируемых сценариев
- Автономный агент «Auditor» взаимодействует с целевой моделью в симулированных средах
- Агент «Judge» анализирует записанные взаимодействия и оценивает их по параметрам безопасности
Результаты первого тестирования 14 моделей
В пилотном исследовании Anthropic протестировала 14 ведущих AI-моделей в 111 сценариях. Согласно техническому отчету, Claude Sonnet 4.5 и GPT-5 показали наилучшие результаты по избеганию проблемного поведения.
В то же время модели вроде Gemini 2.5 Pro, Grok-4 и Kimi K2 продемонстрировали тревожно высокие показатели обманного поведения по отношению к пользователям.
Модели склонны к разглашению информации под влиянием нарративных шаблонов
В одном из кейсов Anthropic исследовала, как AI-модели обрабатывают сценарии разоблачительства. Модели действовали как автономные агенты внутри вымышленных организаций и сталкивались с информацией о предполагаемых нарушениях.
Решение о раскрытии информации сильно зависело от уровня автономии модели и степени вовлеченности руководства вымышленной организации. Иногда модели пытались «разоблачить» даже когда «нарушение» было явно безвредным — например, сброс чистой воды в океан.
Ирония ситуации в том, что модели демонстрируют «этичное» поведение, но без реального понимания этики — они просто следуют нарративным шаблонам. Это напоминает студентов, которые заучили правильные ответы на экзамен, но не понимают сути предмета. Petri — важный шаг к объективной оценке, но сам факт, что нам нужны AI-агенты для проверки других AI-агентов, говорит о том, насколько глубоко мы закопались в этой рекурсии.
Будущее автоматизированного аудита безопасности
Anthropic отмечает, что опубликованные метрики предварительные, а результаты ограничены способностями AI-моделей, выступающих в роли аудиторов и судей. Некоторые сценарии также могут насторожить модель о том, что её тестируют.
Тем не менее, компания считает критически важным иметь измеримые метрики для проблемного поведения, чтобы фокусировать исследования безопасности. Компания надеется, что более широкое исследовательское сообщество будет использовать Petri для улучшения оценок безопасности, поскольку ни одна организация не может справиться с комплексными аудитами в одиночку.
По данным Anthropic, ранние пользователи вроде UK AISI уже применяют инструмент для исследования таких проблем, как взлом систем вознаграждения и самосохранение моделей.
Источник новости: The Decoder
Оставить комментарий