OpenAI представила GDPval — бенчмарк для оценки ИИ в реальных профессиональных задачах. Модели GPT-5 и Claude Opus 4.1 показывают результаты, сравнимые с экспертами, но сильно зависят от формата файлов.
OpenAI внедрила скрытую систему в ChatGPT, которая автоматически переключается на строгую модель при эмоциональных запросах без уведомления пользователей.
KT выпустила корейскую языковую модель SOTAK на базе GPT-4o с улучшенной обработкой местного языка и культурного контекста, превосходящую оригинал в специализированных тестах.
Стартап Juicebox привлек 30 млн долларов от Sequoia для развития AI-поиска кандидатов. Сервис использует языковые модели для анализа профилей и уже обслуживает 2500 клиентов.
Microsoft представила Researcher — ИИ-агент для глубокого анализа рабочих данных и внешних источников. Инструмент автоматизирует подготовку комплексных отчетов для стратегического планирования, продаж и клиентской поддержки.
Новый бенчмарк PrediBench тестирует способность ИИ-моделей предсказывать реальные события через прогнозные рынки Polymarket. Модели ежедневно делают ставки на актуальные события.