Sonar опубликовала рейтинг качества кода от ведущих языковых моделей, включая GPT-5.2, Opus 4.5 и Gemini 3. Исследование показало компромиссы между производительностью и качеством кода.
Google протестировал Gemini в качестве автоматического рецензента для научных статей на конференции STOC 2026. Более 97% авторов сочли обратную связь полезной, а модель нашла критические ошибки, ускользавшие от исследователей месяцами.
Современные ИИ-модели Gemini 3.0 Pro, GPT-5 и другие успешно проходят все три уровня сложного экзамена CFA с результатами до 97,6%
Allen Institute for AI представил улучшенные версии языковых моделей Olmo 3.1 с акцентом на эффективность и прозрачность для корпоративного использования.
Исследование показало, что ИИ-модели генерируют патологические профили при тестировании как пациенты психотерапии, создавая риски для пользователей.
GPT-5.2 демонстрирует рекордные результаты в научных тестах и решает реальные исследовательские задачи в статистике и математике.