Google представил бенчмарк FACTS для оценки фактической точности языковых моделей. Результаты показывают, что даже лучшие модели (Gemini 3 Pro, GPT-5) не преодолевают 70% барьер, особенно в мультимодальных задачах.
Verbatim RAG устраняет галлюцинации в RAG-системах, заставляя модели извлекать точные фрагменты текста вместо генерации ответов.
Гибридный оптимизатор Muon+AdamW показал лучшие результаты при тонкой настройке языковых моделей, превзойдя как чистый Muon, так и AdamW в экспериментах с Qwen3 4B.
Новый подход к RAG-архитектуре позволяет работать с потоковыми данными в реальном времени, решая проблему задержек традиционных систем при обработке динамической информации.
Amazon представила Nova Lite 2.0 — систему искусственного интеллекта для поддержки клиентов, которая использует архитектуру, основанную на рассуждениях, для решения сложных, многошаговых запросов.
Waymo раскрывает архитектуру своего ИИ для беспилотных автомобилей, основанную на принципе доказуемой безопасности и достигшей 100 миллионов миль автономного движения.