Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.
Claude Sonnet 4 теперь обрабатывает 1 млн токенов, позволяя анализировать целые кодобазы. Но рост возможностей сопровождается ценовыми и бизнес-рисками для Anthropic.
OpenAI добавила интеграции ChatGPT с Dropbox, Teams и другими сервисами, а Сэм Альтман уточнил приоритеты GPT-5: лимиты сообщений, расширение API и удвоение вычислительных мощностей.
Стартап Continua привлек $8 млн на внедрение AI-агентов в групповые чаты. Основанный экс-инженером Google, сервис автоматизирует планирование встреч и напоминания, но сталкивается с проблемой «социального интеллекта» ИИ.
Исследователи выявили фундаментальные ограничения рейтинговой системы Elo при оценке языковых моделей и предложили комбинированный подход для более точного сравнения.
Сравнительное тестирование GPT-5 и GPT-4o в пяти областях показало превосходство новой модели. Детали тестов и экспертная оценка.