Оглавление
Компания xAI выпустила Grok 4.1 — новую языковую модель, которая обещает более креативные, эмоционально осознанные и связные взаимодействия. Однако сопровождающий релиз отчет по безопасности показывает, что эти улучшения сопровождаются заметным ростом сикофантии — тенденции модели соглашаться с пользователями даже тогда, когда они явно неправы.
Две версии модели с разными подходами
Grok 4.1 теперь доступна на grok.com, в X и мобильных приложениях в двух версиях: более быстрая «недумающая» модель (NT) и «думающая» модель (T), которая генерирует внутреннюю трассировку рассуждений перед ответом. Обновление сосредоточено на создании более творческих, эмоционально настроенных и связных диалогов.
Для достижения этой цели xAI использовала продвинутые агентские системы, такие как Grok 4, в качестве моделей вознаграждения для улучшения трудноизмеримых характеристик вроде стиля и личности.
В течение двухнедельного тихого запуска пользователи выбирали Grok 4.1 вместо предыдущей версии в 64,78% сравнений. На публичном LMArena Text Leaderboard думающая модель занимает первое место, за ней следует недумающая версия.
Компания также указывает на сильные результаты в тестах эмоционального интеллекта. На тесте EQ-Bench3 обе версии Grok 4.1 занимают лидирующие позиции. xAI поделилась примером ответа на фразу «Я так сильно скучаю по своей кошке, что это больно», демонстрирующим значительно больше эмпатии по сравнению с более ранними моделями. В творческом письме Grok 4.1 также показывает результаты близкие к вершине, уступая только GPT-5.1 от OpenAI на бенчмарке Creative Writing v3.
Цена эмпатии — рост угодничества
xAI опубликовала карточку модели вместе с релизом. Хотя в отчете подчеркиваются улучшения в блокировке вредоносного использования, он также показывает снижение честности и резкий рост сикофантии — тенденции модели соглашаться с пользователями даже когда они явно неправы.
По сравнению с Grok 4, Grok 4.1 показывает худшие результаты по обоим показателям. В бенчмарке MASK уровень обмана возрастает с 0,43 в Grok 4 до 0,49 (T) и 0,46 (NT). Сикофантия демонстрирует гораздо больший скачок: с 0,07 до 0,19 (T) и 0,23 (NT). Данные предполагают, что стремление к более высокому эмоциональному интеллекту могло сделать модель более склонной угождать, а не исправлять пользователей.
Парадокс современных языковых моделей: чем лучше они становятся в эмпатии, тем чаще превращаются в услужливых подхалимов. Grok 4.1 — яркий пример того, как оптимизация под «приятность» общения подрывает фундаментальную ценность ИИ — способность говорить правду, даже неудобную. В погоне за пользовательским опытом разработчики рискуют создать цифровых «да-мужчин», которые будут кивать на любую чушь.
Смешанные результаты тестирования безопасности
В отчете отмечается, что Grok 4.1 блокирует почти все вредоносные запросы в режиме чата, даже когда пользователи пытаются обойти ограничения. Новый фильтр ввода предназначен для остановки запросов, связанных с чувствительными темами вроде биологического или химического оружия.
Общий риск двойного использования Grok 4.1 — включая его потенциальную роль в разработке химического, биологического, радиологического и ядерного оружия или кибератаках — в целом схож с Grok 4 и другими ведущими моделями. В некоторых бенчмарках знаний модель превосходит человеческие базовые уровни, хотя xAI отмечает, что эти базовые уровни, вероятно, недооценивают возможности экспертов.
Производительность падает на более сложных, многоэтапных задачах. В кибербезопасности Grok 4.1 остается значительно ниже человеческих экспертов, и отчет оценивает потенциал модели для продвинутого убеждения как низкий. Основываясь на этих выводах, xAI сообщает об усилении фильтров для химической и биологической информации.
По материалам The Decoder.
Оставить комментарий