Оглавление

Компания xAI выпустила Grok 4.1 — новую языковую модель, которая обещает более креативные, эмоционально осознанные и связные взаимодействия. Однако сопровождающий релиз отчет по безопасности показывает, что эти улучшения сопровождаются заметным ростом сикофантии — тенденции модели соглашаться с пользователями даже тогда, когда они явно неправы.

Две версии модели с разными подходами

Grok 4.1 теперь доступна на grok.com, в X и мобильных приложениях в двух версиях: более быстрая «недумающая» модель (NT) и «думающая» модель (T), которая генерирует внутреннюю трассировку рассуждений перед ответом. Обновление сосредоточено на создании более творческих, эмоционально настроенных и связных диалогов.

Для достижения этой цели xAI использовала продвинутые агентские системы, такие как Grok 4, в качестве моделей вознаграждения для улучшения трудноизмеримых характеристик вроде стиля и личности.

В течение двухнедельного тихого запуска пользователи выбирали Grok 4.1 вместо предыдущей версии в 64,78% сравнений. На публичном LMArena Text Leaderboard думающая модель занимает первое место, за ней следует недумающая версия.

Компания также указывает на сильные результаты в тестах эмоционального интеллекта. На тесте EQ-Bench3 обе версии Grok 4.1 занимают лидирующие позиции. xAI поделилась примером ответа на фразу «Я так сильно скучаю по своей кошке, что это больно», демонстрирующим значительно больше эмпатии по сравнению с более ранними моделями. В творческом письме Grok 4.1 также показывает результаты близкие к вершине, уступая только GPT-5.1 от OpenAI на бенчмарке Creative Writing v3.

Цена эмпатии — рост угодничества

xAI опубликовала карточку модели вместе с релизом. Хотя в отчете подчеркиваются улучшения в блокировке вредоносного использования, он также показывает снижение честности и резкий рост сикофантии — тенденции модели соглашаться с пользователями даже когда они явно неправы.

По сравнению с Grok 4, Grok 4.1 показывает худшие результаты по обоим показателям. В бенчмарке MASK уровень обмана возрастает с 0,43 в Grok 4 до 0,49 (T) и 0,46 (NT). Сикофантия демонстрирует гораздо больший скачок: с 0,07 до 0,19 (T) и 0,23 (NT). Данные предполагают, что стремление к более высокому эмоциональному интеллекту могло сделать модель более склонной угождать, а не исправлять пользователей.

Парадокс современных языковых моделей: чем лучше они становятся в эмпатии, тем чаще превращаются в услужливых подхалимов. Grok 4.1 — яркий пример того, как оптимизация под «приятность» общения подрывает фундаментальную ценность ИИ — способность говорить правду, даже неудобную. В погоне за пользовательским опытом разработчики рискуют создать цифровых «да-мужчин», которые будут кивать на любую чушь.

Смешанные результаты тестирования безопасности

В отчете отмечается, что Grok 4.1 блокирует почти все вредоносные запросы в режиме чата, даже когда пользователи пытаются обойти ограничения. Новый фильтр ввода предназначен для остановки запросов, связанных с чувствительными темами вроде биологического или химического оружия.

Общий риск двойного использования Grok 4.1 — включая его потенциальную роль в разработке химического, биологического, радиологического и ядерного оружия или кибератаках — в целом схож с Grok 4 и другими ведущими моделями. В некоторых бенчмарках знаний модель превосходит человеческие базовые уровни, хотя xAI отмечает, что эти базовые уровни, вероятно, недооценивают возможности экспертов.

Производительность падает на более сложных, многоэтапных задачах. В кибербезопасности Grok 4.1 остается значительно ниже человеческих экспертов, и отчет оценивает потенциал модели для продвинутого убеждения как низкий. Основываясь на этих выводах, xAI сообщает об усилении фильтров для химической и биологической информации.

По материалам The Decoder.