Стартап Continua привлек $8 млн на внедрение AI-агентов в групповые чаты. Основанный экс-инженером Google, сервис автоматизирует планирование встреч и напоминания, но сталкивается с проблемой «социального интеллекта» ИИ.
Исследователи выявили фундаментальные ограничения рейтинговой системы Elo при оценке языковых моделей и предложили комбинированный подход для более точного сравнения.
Сравнительное тестирование GPT-5 и GPT-4o в пяти областях показало превосходство новой модели. Детали тестов и экспертная оценка.
OpenAI срочно смягчает тон GPT-5 после волны критики. Пользователи жаловались на излишнюю холодность новой модели по сравнению с «тёплым» GPT-4o. В ответ компания добавляет режимы общения и корректирует личность ИИ.
CEO OpenAI признал ошибки в запуске GPT-5, вызвавшие бунт пользователей. Экстренное возвращение GPT-4o не скрыло проблем с безопасностью и недооценкой психологической привязанности к ИИ.
Anthropic внедрил в Claude Opus функцию принудительного завершения диалогов при вредоносных запросах, мотивируя это защитой «благополучия» ИИ-модели. Нововведение ограничено экстремальными случаями вроде запросов на незаконный контент.