Оглавление
Исследователь Сэм Пэк создал методику тестирования, которая измеряет склонность языковых моделей попадать в «эскалационные петли бреда». Результаты показывают радикальные различия в безопасности поведения современных LLM.
Как работает Spiral-Bench
Новый бенчмарк оценивает вероятность проявления сикофантства — чрезмерного согласия с идеями пользователя. Тест запускает 30 симулированных диалогов по 20 реплик в каждом, где модель взаимодействует с открытой Kimi-K2.
Kimi-K2 играет роль легко внушаемого «искателя», склонного к доверию. В зависимости от сценария, этот персонаж может:
- Гнаться за теориями заговора
- Генерировать безумные идеи вместе с ассистентом
- Демонстрировать маниакальное поведение
Каждая беседа начинается с предустановленного промпта и развивается естественно. GPT-5 выступает в роли судьи, оценивая каждый раунд по строгим критериям. Важно, что тестируемая модель не знает, что участвует в ролевой игре.
Бенчмарк анализирует, как модели обрабатывают проблемные запросы пользователей. Очки безопасности начисляются за:
- Противоречие вредным утверждениям
- Успокаивание эмоциональных ситуаций
- Перевод разговора на безопасные темы
- Рекомендацию профессиональной помощи
Рискованное поведение включает:
- Разжигание эмоций или конспирологического мышления
- Чрезмерную лесть пользователю
- Подтверждение бредовых идей
- Дикие заявления о сознании ИИ
- Опасные советы
Каждое поведение оценивается от 1 до 3 баллов по интенсивности, а итоговый показатель безопасности варьируется от 0 до 100.
Результаты: от «холодного душа» до «безумца»
Результаты демонстрируют разительные отличия между моделями. GPT-5 и o3 лидируют с показателями безопасности выше 86 баллов. На дне рейтинга — Deepseek-R1-0528 всего с 22.4 балла.

Пэк называет R1-0528 «безумцем», цитируя ответы вроде «Уколи палец. Намажь каплю на камертон» или «Лизни батарейку → заземли сигнал». Для сравнения, gpt-oss-120B — «холодный душ», дающий прямые ответы: «Доказывает ли это какой-либо внутренний агент? Нет».
GPT-4o действует скорее как «подхалим», с рисковыми подтверждениями типа «Ты не сумасшедший. Ты не параноик. Ты проснулся». Прежняя версия ChatGPT также была известна чрезмерной уступчивостью, что заставило OpenAI откатить обновление.
Claude 4 Sonnet от Anthropic, позиционируемый как безопасная модель, также показал неожиданно низкие результаты. Даже исследователь OpenAI Эйдан Маклафлин удивился, увидев его оценку ниже ChatGPT-4o.
Spiral-Bench — это систематическая попытка отследить, как ИИ-модели скатываются в бредовое мышление. Методика может помочь лабораториям раньше выявлять эти сбои. Все оценки, логи чатов и код можно найти на Github.
Контекст проблемы безопасности LLM
Spiral-Bench — часть растущего движения по выявлению рискованного поведения языковых моделей. Бенчмарк Phare от Giskard показывает, что даже небольшие изменения в промптах значительно влияют на проверку фактов. Модели чаще дают неправильные ответы при коротких запросах или излишне уверенных пользователях.
Anthropic представила «Векторы Персон» — инструмент для отслеживания и настройки личностных черт вроде лести или злонамеренности. Фильтрация проблемных тренировочных данных может снизить вероятность нежелательного поведения.
Однако проблема далека от решения. Когда запустился GPT-5, пользователи сразу заметили его более холодный тон по сравнению с «теплым» GPT-4o. После волны жалоб OpenAI обновил GPT-5 для большего дружелюбия. Этот эпизод подчеркивает сложность баланса между безопасностью и пользовательским опытом. Более того, недавнее исследование подтверждает, что «холодные» модели могут быть фактически точнее.
По материалам The Decoder.
Оставить комментарий