Бенчмарк FACTS увидел проблемы LLM

Бенчмарк FACTS показал, что ведущие LLM не набрали даже 70% точности по фактам

Google представил бенчмарк FACTS для оценки фактической точности языковых моделей. Результаты показывают, что даже лучшие модели (Gemini 3 Pro, GPT-5) не преодолевают 70% барьер, особенно в мультимодальных задачах.

Verbatim RAG

Verbatim RAG: метод извлечения текста для полного устранения галлюцинаций в RAG-системах

Verbatim RAG устраняет галлюцинации в RAG-системах, заставляя модели извлекать точные фрагменты текста вместо генерации ответов.

Оптимизатор Muon + AdamW

Оптимизатор Muon показал лучшие результаты при тонкой настройке языковых моделей

Гибридный оптимизатор Muon+AdamW показал лучшие результаты при тонкой настройке языковых моделей, превзойдя как чистый Muon, так и AdamW в экспериментах с Qwen3 4B.

Потоковый RAG

RAG для потоковых данных: новый подход к работе с динамической информацией

Новый подход к RAG-архитектуре позволяет работать с потоковыми данными в реальном времени, решая проблему задержек традиционных систем при обработке динамической информации.

Amazon представляет Nova Lite 2.0

Amazon представляет Nova Lite 2.0 — систему рассуждений для сложных сценариев техподдержки

Amazon представила Nova Lite 2.0 — систему искусственного интеллекта для поддержки клиентов, которая использует архитектуру, основанную на рассуждениях, для решения сложных, многошаговых запросов.

Waymo раскрывает архитектуру

Waymo раскрывает архитектуру безопасного ИИ для беспилотных автомобилей

Waymo раскрывает архитектуру своего ИИ для беспилотных автомобилей, основанную на принципе доказуемой безопасности и достигшей 100 миллионов миль автономного движения.