Claude обошел человека в задаче на alignment, но провалился в реальных условиях
Автономные агенты Claude Opus 4.6 блестяще справились с исследовательской задачей в лаборатории, но не смогли улучшить работу реальных моделей в продакшене.
Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.
Автономные агенты Claude Opus 4.6 блестяще справились с исследовательской задачей в лаборатории, но не смогли улучшить работу реальных моделей в продакшене.
Британский институт безопасности ИИ протестировал Claude Mythos Preview в сценариях взлома сетей. Результаты впечатляют, но есть нюансы.
Исследователи представили LPM 1.0 — модель ИИ, способную генерировать живое видео из одного фото с поддержкой синхронизации губ и естественной мимики в реальном времени.
Внутренняя записка OpenAI раскрывает планы по запуску модели Spud и платформы Frontier, а также содержит резкую критику методов отчетности Anthropic.
Международная группа ученых представила OpenWorldLib и доказала, что популярные видеогенераторы вроде Sora лишены ключевых свойств моделей мира.
Zhipu AI представила GLM-5.1 — модель, которая умеет переосмысливать свои ошибки в коде через сотни итераций и обходит конкурентов в специфических тестах.