Meta* представляет Gaia2 и ARE — бенчмарк для тестирования ИИ-агентов в реальных условиях
Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.
Hugging Face — GitHub для AI моделей. Крупнейшая платформа для ML сообщества. Хостинг моделей и датасетов.
Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.
ServiceNow анонсировала SyGra — low-code фреймворк для генерации и преобразования данных для обучения языковых моделей. Решение упрощает создание сложных датасетов для SFT, DPO и RAG-пайплайнов.
PyTorch выпустил предварительно квантованные версии популярных языковых моделей с рецептами оптимизации для серверных GPU и мобильных устройств.
Семейство доменно-специализированных энкодеров RexBERT для электронной коммерции демонстрирует превосходство над общецелевыми моделями в 2-3 раза большего размера.
Hugging Face представила туториал по BioClinical ModernBERT — специализированной языковой модели для обработки медицинских текстов с улучшенной поддержкой клинической терминологии.
RiskRubric.ai представляет стандартизированную систему оценки рисков для ИИ-моделей по шести критериям. Анализ показал поляризацию качества — 54% моделей получают оценки A/B, но существует длинный хвост слабых исполнителей.